观点摘录
序言引言
推荐序一
一个大规模生产、分享和应用数据的时代正在开启。
大数据的真实价值就像漂浮在海洋中的冰山,绝大部分都隐藏在表面之下,而发掘数据价值、征服数据海洋的“动力”就是云计算。
以云计算未基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、告诉、多变化的终端数据存储下来,并随时进行分析与计算,大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。
大数据发展的障碍,在于数据的“流动性”和“可获取性”。如同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。
推荐序二
人们主要依赖抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。所以人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。
大数据的出现,使得利用数据分析结果获取知识、商机和社会服务的能力的门槛降低,门槛的降低直接导致了数据的容错率提高和成本的降低,人们可以在很大程度上从对因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清两者为何相关可以留给学者们慢慢研究。
大数据逐渐成为现代社会基础设施的一部分,就像公路、铁路,但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为使用而折旧和贬值(本书阐明会折旧和贬值,只能说序言作者意思想表示程度不同)。
译者序
本书内容:
大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力。最后,作者面熟了大数据帝国千叶的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。
译者观点:(可我觉得原作者并没有这么极端)
对于大数据时代“相关关系比因果关系更重要”这个观点不认同,与其说是大数据让我们重视相关胜于因果,不如说机器学习和以结果为导向的研究思路让我们如此。
认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义魅影,绝非大数据自身的诉求。
苏珊·朗格在《哲学新视野》一书中说:
某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以它们似乎将有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种“宏大概念”突然流行起来,一时间把几乎所有东西都挤到了一边。
(种草,最喜欢科学上升到哲学了)
大数据是一个很重要的概念,代表了很重要的趋势,但并不是一种放之四海而皆准的万能概念——因为越是万能的,就越是空洞的。《文化的解释》中人类学家克里福德·吉尔兹劝说:努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展