《大数据时代》读书笔记——知道“是什么”就够了，没必要知道“为什么”。我们不必非得知道现象背后的原因，而是要让数据自己“发声”

最新推荐文章于 2022-07-30 02:03:17 发布

会飞的金色流年

最新推荐文章于 2022-07-30 02:03:17 发布

阅读量1.4w

点赞数 5

文章标签：大数据读书笔记时代数据

阶段性总结专栏收录该内容

5 篇文章 0 订阅

订阅专栏

引言——一场生活、工作与思维的大变革

今天，一种可能的方式，亦是本书采取的方式，认为大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉；大数据还为改变市场、组织机构，以及政府与公民关系服务。

这仅仅只是一个开始，大数据时代对我们的生活，以及与世界交流的方式都提出了挑战。最惊人的是，社会需要放弃它对因果关系的渴求，而仅需关注相关关系。也就是说只需要知道是什么，而不需要知道为什么。这就推翻了自古以来的惯例，而我们做决定和理解现实的最基本方式也将受到挑战。

人类存储信息量的增长速度比世界经济的增长速度快4倍，而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。

事实上，尽管规律相同，但是我们能够感受到的约束，很可能只对我们这样尺度的事物起作用。对于人类来说，唯一一个最重要的物理定律便是万有引力定律。……但对于细小的昆虫来说，重力是无关紧要的。对它们而言，物理宇宙中有效的约束是表面张力，这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。……对于万有引力产生的约束力而言，生物体的大小是非常重要的。类似地，对于信息而言，规模也是非常重要的。（如谷歌能够基于大量真实病例信息能够实时的得到流感情况，Farecast可以预测机票价格波动）它们之所以如此给力，都因为存在供其分析的数千亿计的数据项。

大数据的核心就是预测。

大数据的精髓在于我们分析信息时的三个转变，这些转变将改变我们理解和组建社会的方法。

第一个转变就是，在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样。……大数据让我们更清楚地看到了样本无法揭示的细节信息。

第二个改变就是，研究数据如此之多，以至于我们不再热衷于追求精确度。……拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握大体的发展方向即可。……适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

第三个转变因前两个转变而促成，即我们不再热衷于寻找因果关系。……应该寻找事物之间的相关关系。……大数据告诉我们“是什么”而不是“为什么”。

例如，对冲基金通过剖析社交网络Twitter上的数据信息来预测股市的表现；亚马逊和奈飞根据用户在其网站上的类似查询来进行产品推荐；Twitter，Facebook和LinkedIn通过用户的社交网络图来得知用户的喜好。

数据化意味着我们要从一切太阳底下的事物中汲取信息，甚至包括很多我们以前认为和“信息”根本搭不上边的事情。

01更多——不是随机样本，而是全体数据

统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。

在对一个量（例如年收入）进行估计的时候，如果总体可以分为很多层（例如所有人口按照不同年龄或者不同职业分成很多层），一种直观的想法是每一层随机抽样的样本大小应该正比于这个层所包含人口的多少。奈曼指出，最优分配并非如此简单，实际上，层越大，层内待估计量的变化越大，该层抽样的单位费用越小，则该层的抽样就应该越多。

采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大。为什么会这样？原因很复杂，但是有一个比较简单的解释就是，当样本数量达到了某个值之后，我们从新个体身上得到的信息会越来越少，就如同经济学中的边际效应递减一样。

边际效用递减，是指在一定时间内，在其他商品的消费数量保持不变的条件下，当一个人连续消费某种物品时，随着所消费的该物品的数量增加，其总效用(total utility)虽然相应增加，但物品的边际效用（marginal utility, 即每消费一个单位的该物品，其所带来的效用的增加量）有递减的趋势。

认为样本选择的随机性比样本数量更重要，这种观点是非常有见地的。

随机采样取得了巨大的成功，……它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性，但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见，分析结果就会相去甚远。

随机采样不适合考察子类别的情况。

当人们想了解更深层次的细分领域的情况时，随机采样的方法就不可取了。（你设想一下，一个对1000个人进行的调查，如果要细分到“东北部的富裕女性”，调查的人数就远远少于1000人了。即使是完全随机的调查，倘若只用了几十个人来预测整个东北部富裕女性选民的意愿，还是不可能得到精确的结果啊！而且，一旦采样过程中存在任何偏见，在细分领域所做的预测就会大错特错。）

大数据与乔布斯的癌症治疗——他与癌症斗争的过程中采用了不同方式，成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。对于一个普通的癌症患者，医生只能期望他的DNA排列同试验中使用的样本足够相似。但乔布斯的医生们能够基于他的特定基因组成，按所需效果用药。如果癌症病变导致药物失效，医生可以及时更换另一种药，也就是乔布斯所说的，“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说：“我要么是第一个通过这种方式战胜癌症的人，要么就是最后一个因为这种方式死于癌症的人。”

Xoom与跨境汇款异常交易报警——……单独来看，每笔交易都是合法的，但是事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是，重新检查所有的数据，找出样本分析法错过的信息。

大数据是指不用随机分析法这样的捷径，而采用所有数据的方法。

社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析，社会科学不再单纯依赖于分析实证数据。这么学科过去曾非常依赖样本分析、研究和调查问卷。

如果把一个在社区内有很多连接关系的人充社区关系网中剔除掉，这个关系网会变得没那么高效但却不会解体；但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除，整个关系网很快就会破碎成很多小块。……谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢？这说明一般来说无论是针对一个小团体还是整个社会，多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。

作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点（手机用户）的情形，而是考察从网络中移除链路（通话关系）对网络结构的影响。借鉴渗流理论，作者发现，移除弱关系而非强关系反而会导致快速破碎成若干小碎片。

02更杂——不是精确性，而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下的95%的非结构化数据都无法被利用，只有接受不精确性，我们才能打开一扇从未涉足的世界的窗户。

假设你要测量一个葡萄园的温度，但是整个葡萄园只有一个温度测量仪，那你就必须确保这个测量仪是精确的而且能够一直工作。反过来，如果每100棵葡萄树就有一个测量仪，有些测试的数据可能会是错误的，可能会更加混乱，但众多的读书合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据，而它不仅能抵消掉错误数据造成的影响，还能提供更多的额外价值。

现在想想增加读书频率的这个事情。如果每隔一分钟就测量一下温度，我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话，不仅读书可能出错，连时间先后都可能搞混掉。

计算机象棋程序总是步步为赢是由于对残局掌握的更好了，而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上，当棋盘上只剩下六枚棋子或更少的时候，这个残局得到了全面的分析，而且接下来所有可能的走法（样本=总体）都被制入了一个庞大的数据表格。这个数据表格如果不压缩的话，会有一太字节那么多。所以，计算机在这些重要的想起残局中表现得完美无缺和不可战胜。

无所不包的谷歌翻译系统——2006年，谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源，并让人人都可以享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库，也就是全球的互联网，而不再只利用两种语言之间的文本翻译。……尽管其输入源很混乱，但较其他翻译系统而言，谷歌的翻译质量相对而言还是最好的，而且可以翻译的内容更多。……之所以能做到这些，是因为它将语言视为能够判别可能性的数据，而不是语言本身。

错误并不是大数据固有的特性，而是一个亟需我们去处理的现实问题，并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性。

当我们上传照片到Flickr网站的时候，我们会给照片添加标签。也就是说，我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签，所以它是没有标准、没有预先设定的排列和分类，也没有我们必须遵守的类别的。任何人都可以输入新的标签，标签内容事实上就成为了网络资源的分类标准。……因为它们的存在，互联网上的资源变得更加容易找到，特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

互联网上最火的网址都表明，它们欣赏不精确而不会假装精确。当一个人在网站上见到一个Facebook的“喜欢”按钮时，可以看到有多少其他人也在点击。当数量不多时，会显示像“63”这种精确的数字。当数量很大时，则只会显示近似值，比方说“4000”。这并不代表系统不知道正确的数据是多少，只是当数量规模变大的时候，确切的数量已经不那么重要了。

要想获得大规模数据带来的好处，混乱应该是一种标准途径，而不应该是竭力避免的。

宽容错误会给我们带来更大价值。

我们怎么看待使用所有数据和使用部分数据的差别，以及我们怎样选择放松要求并取代严格的精确性，将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分，我们应该开始从一个比以前更大更全面的角度来理解事物，也就是说应该将“样本=总体”植入我们的思维中。

大数据要求我们有所改变，我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑，就像我们常说的“钉是钉，铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的。不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话，我们离真相就又近了一步。

03更好——不是因果关系，而是相关关系

知道“是什么”就够了，没必要知道“为什么”。在大数据时代，我们不必非得知道现象背后的原因，而是要让数据自己“发声”。

林登与亚马逊推荐系统——……很快找到了一个解决方案。他意识到，推荐系统实际上并没有必要把顾客与其他顾客进行对比，这样做其实在技术上也比较繁琐。它需要做的是找到产品之间的关联性。1998年，林登和他的同事申请了著名的“item-to-time”协同过滤技术的专利。

林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试，结果他发现两者之间的业绩相差甚远。他解释说，通过数据推荐产品所增加的销售远远超过书评家的贡献。……知道“是什么”可以创造点击率，这种洞察力足以重塑很多行业，不仅仅只是电子商务。……亚马逊的推荐系统梳理出了有趣的相关关系，但不知道背后的原因。知道是什么就够了，没必要知道为什么。

相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增强时，另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系，比如谷歌流感趋势：在一个特定的地理位置，越多的人通过谷歌搜索特定的词条，该地区就有更多的人患了流感。

相反，相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。例如，我们可以寻找关于个人的鞋码和幸福的相关关系，但会发现它们几乎扯不上什么关系。

……当然，即使是很强的相关关系也不一定能解释每一种情况，比如两个事物看上去行为相似，但很有可能只是巧合。……相关关系没有绝对，只有可能性。……通过给我们找到一个现象的良好的相关物，相关关系可以帮助我们捕捉现代和预测未来。

沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。许多情况下，沃尔玛不接受产品的“所有权”，除非产品已经开始销售，这样就避免了存货的风险也降低了成本。实际上，沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。……沃尔玛公司注意到，每当在季节性飓风来临之前，不仅手电筒销量增加了，而且POP-Tarts蛋挞的销量也增加了。因此，当季节性风暴来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，以方便形色匆匆的顾客从而增加销量。

我们用数据驱动的关于大数据的相关关系分析法，取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快，而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。

益百利有一种服务，可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据，益百利能够得出评分结果。证明一个人的收入状况要花费10美元左右，但益百利的预测结果售价不足1美元。

这些相关关系甚至使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券，这才是塔吉特公司的目的。

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是，通过找出新种类数据之间的相互联系来解决日常需求。比方说，预测分析法……系统把这些异常情况与正常情况进行对比，就会知道什么地方出了毛病。通过尽早地发现异常，系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它，我们就能预测未来。

预测性分析并不能解释故障可能会发生的原因，只会告诉你存在什么问题。

当收集、存储和分析数据的成本比较高的时候，应该适当地丢弃一些数据。

这个系统依赖的是相关关系，而不是因果关系。它告诉你的是会发生什么，而不是为什么发生。这正是这个系统的价值！……数据表明，早产儿的稳定不但不是病情好转的标志，反而是暴风雨前的宁静，就像是身体要它的器官做好抵抗困难的准备。

幸福的非线性关系——多年来经济学家和政治家一直错误的认为收入水平和幸福感是成正比的。……但事实上，它们之间存在一种更复杂的动态关系：对于收入水平在1万美元以下的人来说，一旦收入增加，幸福感会随之提升；但对于收入水平在1万美元以上的人来说，幸福感并不会随着收入水平提高而提升。……这个发现对决策者来说非常重要。如果只看到线性关系的话，那么政策重心应完全放在增加收入上，因为这样才能增加全民的幸福感。而一旦察觉这种非线性关系，策略的重心就会变成提高低收入人群的收入水平，因为这样明显更划算。

当我们说人类是通过因果关系了解世界时，我们指的是我们在理解和解释世界各种现象时使用的两种基本方法：一种是通过快速、虚幻的因果关系，还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。

首先，我们的直接愿望就是了解因果关系。即使无因果关系存在，我们也还是会假定其存在。研究证明，这只是我们的认知方式，与每个人的文化背景、生长环境以及教育水平是无关的。……看看下面这三句话：“弗雷德的父母迟到了；供应商快到了；弗雷德生气了。”我们读到这里时，可能立马就会想到弗雷德生气并不是因为供应商快到了，而是他父母迟到了的缘故。实际上，我们也不知道到底是什么情况。即便如此，我们还是不禁认为这些假设的因果关系是成立的。……证明了人有两种思维模式。第一种是不费力的快速思维，通过这种思维方式几秒钟就能得出结果；另一种是比较费力的慢性思维，对于特定的问题，就是需要考虑到位。

快速思维模式使人们偏向用因果联系来看待周围的一切，即使这种关系并不存在。……在古代，这种快速思维模式是很有用的，它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是，通常这种因果关系都是并不存在的。……卡尼曼指出，平时生活中，由于惰性，我们很少慢条斯理地思考问题。所以快速思维模式就占了上风。因此，我们会经常臆想出一些因果关系，最终导致了对世界的错误理解。

父母经常告诉孩子天冷时不戴帽子和手套就会感冒。然而，事实上，感冒和穿戴之间却没有直接的联系。有时，我们在某个餐馆用餐后生病了的话，我们就会自然而然的觉得这是餐馆食物的问题，以后可能就不再去这家餐馆了。事实上，我们肚子痛也许是因为其他的传染途径，比如和患者握过手之类的。然而，我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系，因此，这经常导致我们做出错误的决定。

事实证明，一般来说，人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效，这也只适用于七分之一的案例中。无论如何，就算没有狂犬疫苗，这个小男孩活下来的概率还是有85%。

与相关关系一样，因果关系被完全证实的可能性几乎是没有的，我们只能说，某两者之间很有可能存在因果关系。

相关关系很有用，不仅仅是因为它能为我们提供新的视角，而且提供的视角都非常清晰。而我们一旦把因果关系考虑进来，这些视角就有可能被蒙蔽掉。

若要找出相关关系，我们可以用数学方法，但如果是因果关系的话，这却是行不通的。

如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话，前者就更具有说服力。

在大多数情况下，一旦我们完成了对大数据的相关关系分析，而又不再满足于仅仅知道“是什么”时，我们就会继续向更深层次研究因果关系，找出背后的“为什么”。

(关于纽约每年有很多沙井盖会发生爆炸的事情，联合爱迪生电力公司通过统计学家的帮助，得出证明)最重要的因素是这些电缆的使用年限和有没有出现过问题。

我们需要改变我们的操作方式，使用我们能收集到的所有数据，而不仅仅是使用样本。我们不能再把精确性当成重心，我们需要接受混乱和错误的存在。另外，我们应该侧重于分析相关关系，而不再寻求每个预测背后的原因。

……这就意味着普遍规则都不重要了，比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今，重要的就是数据分析，它可以揭示一切问题。

“理论的终结”似乎暗示着，尽管理论仍存在于像物理、化学这样的学科里，但大数据分析不需要成形的概念。这实在荒谬。……尽管这个答案不怎么样！大数据绝对不会叫嚣“理论已死”，但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆，很多旧有的制度面临挑战。

大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡，而是通往未来的必然改变。但是在我们到达目的地之前，我们有必要了解怎样才能到达。

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见，但是如今的信息技术变革的重点在“T”（技术）上，而不是在“I”（信息）上。现在，我们是时候把聚光灯打向“I”，开始关注信息本身了。

04数据化——一切皆可“量化”

病毒型社交网络——一种在线社交网络，其典型营销方式是，一旦你加入了，系统会自动从你注册或关联的邮箱中找到联系人，并发信邀请他们加入。很多读者应该都收到过LinkedIn的邀请信，就是一个典型的例子。

100

许多船挂了一面特殊的旗帜，表明它参与了这个信息交流计划（莫里要求大家写航海日志图表）。这些旗帜就是出现在一些网站上的友情链接的前身。

101

他深知只要相关信息能够提取和绘制出来，这些脏乱的航海日志就可以变成有用的数据。通过这样的方式，他重复利用了别人眼里完全没有意义的数据信息。从这个意义上讲，莫里就是数据化的先驱。就像奥伦对Farecast所做的事情一样，用航空业过去的价格信息催生了一个大有赚头的新公司；也像谷歌的工程师所做的一样，通过过去的检索记录预测到了流感的暴发；而莫里则是发挥出了单纯用于记录航行位置的数据的其他用途。

102

这说明在远在信息数字化之前，对数据的运用就已经开始了。如今我们经常把“数字化”和“数据化”两个概念搞混，但是对这两个概念的区分实际上非常重要。

102

日本先进工业技术研究所的坐姿研究与汽车防盗系统——他们所做的研究就是关于一个人的坐姿。当一个人坐着的时候，他的身形、姿势和重量分布都可以量化和数据化。……有了这个系统之后，汽车就能识别出驾驶者是不是车主。……我们可以利用事故发生之前的姿势变化情况，分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳的时候发出警示或者自动刹车。同时，这个系统不但可以发现车辆被盗，而且可以通过收集到的数据识别出盗贼的身份。

102

“数据”（data）这个词在拉丁文里是“已知”的意思，也可以理解为“事实”。

104

数据化——指一种把现象转变为可制表分析的量化形式的过程。

数字化——指把模拟数据转换成用0和1表示的二进制码，这样电脑就可以处理这些数据了。

104

计量和记录一起促成了数据的诞生，它们是数据化最早的根基。

105

公元1000年，教皇西尔维斯特二世开始倡导使用阿拉伯数字。12世纪，介绍阿拉伯数字的书籍被翻译成拉丁文，传播到了整个欧洲地区。这也就开启了算术的腾飞。

106

复式记账法，是指以资产与权益平衡关系作为记账基础，对于每一项经济业务，都要在两个或两个以上的账户中相互联系进行登记，系统地反应资金运动变化结果的一种记账方法。复式记账的理论依据是会计基本等式，即“资产=负债+所有者权益”。

107

数字化带来了数据化，但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据，和数据化有本质的不同。109

当文字变成数据，它就大显神通了——人可以用之阅读，机器也可用之分析。

112

可以不失公允地说，亚马逊深谙数字化内容的意义，而谷歌触及了数据化内容的价值。

113

当方位变成数据——对地理位置的数据化需要满足一些前提条件。我们需要能精确地测量地球上的每一块地方；我们需要一套标准的标记体系；我们需要收集和记录数据的工具。简而言之，就是地理范围、标准、工具或者说量化、标准化、收集。只有具备了这些，我们才能把位置信息当成数据来存储和分析。

113

在西方，对位置信息的量化起源于希腊。公元前200年，发明了用格网线来划分区域的系统，类似于经纬度法。但后来被遗忘了。公元1400年《地理学》轰动一时，而书中提到的系统现在仍被用来解决航海导航的难题，从那以后，地图上标上了经纬度和比例尺。1884年，在美国华盛顿召开的国际子午线会议上，同意将英格兰格林尼治定为本初子午线和零度经线所穿过的地方（只有法国投了反对票）。20世纪40年代，墨卡托方位法把世界划分成了60个区域，提高了地理定位的精确性。1978年见证了一个伟大的转变，当时构成全球定位系统（GPS）的24颗卫星第一次发射成功。

114

多效地理定位与UPS的最佳行车路径——UPS为货车定制的最佳行车路径一定程度上也是根据过去的行车经验总结出来的。……系统也设计了尽量少左转的路线，因为左转要求货车在交叉路口穿过去，所以更容易出事故。而且，货车往往需要待一会儿才能左转，也会更耗油，因此，减少左转使得行车的安全性和效率得到了大幅提升。

116

莱维斯说，“预测给我们知识，而知识赋予我们智慧和洞见。”

117

“现实挖掘”这里指的是通过处理大量来自手机的数据，发现和预测人来行为。

118

一项内部研究表明，个人会偿还债务的可能性和其朋友会偿还债务的可能性呈正相关。

120

很多人对“物联网”有着宗教般的狂热，试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹，其实不过是一种典型的数据化手段罢了。

124

水渠让城市的发展成为可能，印刷机推进了启蒙运动，报纸为民族国家的兴起奠定了基础。但这些基础设施都侧重于流动——关于水、关于知识。电话和互联网也是如此。相比较而言，数据化代表着人类认识的一个根本性转变。有了大数据的帮助，我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件，我们会意识到本质上世界是由信息构成的。

125

整整一个多世纪以来，物理学家们一直宣称情况应该是这样的——并非原子而是信息才是一切的本源。

125

05价值——“取之不尽，用之不竭”的数据创新

2000年，为了阻止垃圾邮件，路易斯·冯·安想到了一个办法，即在注册过程中显示一些波浪状、辨识度低的字母。人能够在几秒钟内识别并输入正确的文本信息，但电脑可能会被难倒。雅虎采用了这个方法后，一夜之间减轻了垃圾邮件带来的苦恼。他的创作成为验证码（全称为“全自动区分计算机和人类的图灵测试”）。

128

不同于物质性的东西，数据的价值不会随着它的使用而减少，而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处：个人的树勇会妨碍其他人的使用，而且信息不会像其他物质产品一样随着使用而有所耗损。因此，亚马逊在向其用户，不论是生成这些数据的客户或是其他客户做出建议时，都可以不断地使用过去的交易数据。

132

数据的价值并不仅限于特定的用途，它可以为了同一目的而被多次使用，也可以用于其他目的。要了解大数据时代究竟有多少信息对我们有价值，后面这一点尤其重要。

132

用物理学家解释能量的方法或许可以帮助我们理解数据。他们认为物体拥有“存储着的”或“潜在的”能量，只是处于休眠状态，比如压缩了的弹簧或放置在山顶的小球……同理，在基本用途完成后，数据的价值仍然存在，只是处于休眠状态，像弹簧或小球一样，直到它被二次利用并重新释放它的能量。在大数据时代，我们终于有了这种思维、创造力和工具，来释放数据的隐藏价值。

135

最终，数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择，这里不是指金融工具意义上的选择，而是实际意义上的选择。这些选择的总和就是数据的价值，即数据的“潜在价值”。

135

过去，一旦数据的基本用途实现了，我们便认为数据已经达到了它的目的，准备将其删除，让它就此消失。……而在大数据时代，数据就像是一个神奇个钻石矿，在其首要价值被挖掘后扔能不断产生价值。数据的潜在价值有三种最为常见的释放方式：基本再利用、数据集整合和寻找”一份钱两份贷“。

135

数据再利用的价值对于那些收集或控制着大型数据集但目前去很少使用的机构来说是个好消息，比如在那些线下运作的传统企业。……麦肯锡的咨询顾问们列举了一家物流公司（名称保密）。这家公司在交付货物的过程中积累了大量产品的全球出货信息。嗅到了这个机会后，该公司成立了专门的部门，以商业和经济预测的形式出售汇总数据。换言之，它创造了谷歌过去搜索查询业务的一个线下版本。

137

有时，处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。

139

丹麦癌症协会：手机释放增加致癌率——为了满足医疗或商业的目的，两个数据集都采用了严格的质量标准，信息的收集不存在偏差。事实上，数据是在多年前就已经生成的，当时的目的与这项研究毫无关系。最重要的是，这项研究并没有基于任何样本，却很接近“样本=总和”的准则，即包括了几乎所有癌症患者和移动用户。……最后，研究没有发现使用移动电话和癌症风险增加之间存在任何关系。

139

随着大数据的出现，数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时，重组总和本身的价值也比单个总和更大。……例如，房地产网站将房地产信息的价格添加在美国的社区地图上，同时，还聚合了大量的信息，如社区近期的交易和物业规格，以此来预测区域内具体每套住宅的价值。这个结果极具指导意义，尽管通过视觉展示使得数据更加亲和且非常简单，但采用位置信息并将其置于地图上毕竟不是一个创造性的飞跃。

140

数据创新3：可扩展数据——有些零售商在店内安装了监控摄像头，这样不仅能认出商店扒手，还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。

141

谷歌街景与GPS采集——一辆谷歌街景汽车每时每刻都能积累大量的离散数据流。这些数据之所以具有可扩展性，是因为谷歌不仅将其用于基本用途，而且进行了大量的二次利用。例如，GPS数据不仅优化了其地图服务，而且对谷歌自动驾驶汽车的运作功不可没。

141

数据创新4：数据的折旧值——……仅仅依据时间来判断显然不够，因此，亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如，如果客户浏览或购买了一本基于以往购买记录而推荐的书，电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样，他们就能够评价旧数据的有用性，并使模型的“折旧率”更具体。

143

数据创新5：数据废气——微软与谷歌的拼写检查……这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值，而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量（如：搜索结果页面的顶部显示“你要找的是不是：XXX”），而且将其应用于许多其他服务中，如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。

146

一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了，这就是“数据废气”。它是用户在线交互的副产品，包括浏览了哪些页面、停留了多久、鼠标光标的位置、输入了什么信息等等。

146

06角色定位——数据、技术与思维的三足鼎立

大数据价值链的3大构成——数据本身、技能与思维。

第一种是基于数据本身的公司。如Twitter。

第二种是基于技能的公司。如沃尔玛。

第三种是基于思维的公司。就是通过想法获得价值。

160

VIAS & MasterCard 与商户推荐——MasterCard发现，如果一个人在下午四点左右给汽车加油的话，他很可能在接下来的一个小时内要去购物或者去餐馆吃饭，而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息，因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。（MasterCard就是一个大数据掌控公司）

163

在一系列情况下，一个出院了的病人会在一个月之内再次入院。……但是研究也发现了一个出人意料的重要因素，那就是病人的心里状况。如果对病人最初的诊断中有类似“压抑”这种暗示心理疾病的词的话，病人再度入院的可能性大很多。……这表明，如果病人出院之后的医学干预是以解决病人的心理问题为重点，可能会更有利于他们的身体健康。

165

FlightCaster的大数据思维——……它主要基于分析过去十年里每个航班的情况，然后将其与过去和现实的天气情况进行匹配。有趣的是，数据拥有者就做不到这样的事情。……如果美国运输统计局、美国联邦航空局和美国天气服务这些数据拥有者敢将航班晚点预测用作商业用途的话，国会可能就会举办听证会并否决这个提议。……同样，航空公司不可以这么做，也不会这么做，因为这些数据所表达的信息越隐蔽对它们就越有利。FlightCaster的预测是如此的准确，就连航空公司的职员也开始使用它了。但需要注意的一点就是，虽然航空公司是信息的源头，但是不到最后一秒它是不会公布航班晚点的，所以它的信息是不及时的。

166

所谓大数据思维，是指一种意识，认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。

167

虽然谷歌和亚马逊都是三者兼具，但是他们的商业策略并不相同。谷歌在刚开始收集数据的时候，就已经带有多次使用数据的想法。比方说，它的街景采集车收集全球定位系统数据不光是为了创建谷歌地图，也是为了制成全自动汽车。相对地，亚马逊更关注的是数据的基本用途而且也只把数据的二级用途作为额外收益。比方说，它的推荐系统把用户浏览过的网页数据作为线索，但是它并没有利用它预测经济状况和流感爆发。

170

亚马逊的Kindle电子书阅读器记录了一些读者反复标注和强调过的内容，但是亚马逊并没有把这些数据信息卖给作者或者出版社。书商肯定很乐意知道哪些段落是受读者欢迎的，因为这样他们就能提高销量；作者应该也想知道书籍的哪些地方不受读者欢迎，这样他们就能根据读者的喜好提高作品质量；出版社则可以通过这些数据知道哪些主题的书籍更有可能成为畅销书。但是，亚马逊把这些数据都雪藏了。

170

Inrix的分析发现，上下班高峰时期的交通状况变好了，这也就说明失业率增加了，经济状况变差了。同时，Inrix把收集到的数据卖给了一个投资基金，这个投资基金把交通情况视作一个大型零售商场销量的代表，一旦附近车辆很多，就说明商场的销量会增加。

174

数据的价值已经从技术转移到了数据自身和大数据思维上。

176

如果车辆的自动制动系统在某段路上老是启动的话，就说明这段路比较危险，应该考虑更换路径。

176

苹果公司进军移动手机行业就是一个很好的例子。在iPhone推出之前，移动运营商从用户手中收集了大量具有潜在价值的数据，但是没能深入挖掘其价值。相反，苹果公司在与运营商签订的合约中规定运营商要提供给它大部分的有用数据。通过来自多个运营商提供的大量数据，苹果公司所得到的关于用户体验的数据比任何一个运营商都要多。苹果公司的规模效益体现在了数据上，而不是固有资产上。

186

大数据让处于行业两端的公司受益良多，而中等规模的公司要么向两端转换，要么破产。传统行业最终都会转变为大数据行业，无论是金融服务业、医药行业还是制造业。当然，大数据不会让所有行业的中等规模的公司消亡，但是肯定会给可以被大数据分析所取代的中等规模公司带来巨大的威胁。

188

竞争正如火如荼地进行。就像谷歌的检索系统需要用户数据才能完好运行，德国的汽车零件供应商需要反馈的数据来提高它的零件质量，所有的公司都能通过巧妙地挖掘数据价值而获得利益。数据能够优化生产和服务，甚至能催生新的行业。

189

07风险——让数据主宰一切的隐忧

如果所有人的信息本来都已经在数据库里，那么有意识地避免某些信息就是此地无银三百两。……另一条技术途径在大部分情况下也不可行，那就是匿名化。……在小数据时代这样确实可行，但是随着数据量和种类的增多，大数据促进了数据内容的交叉检验。

198

……因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的，一是我们收集到的数据越来越多，二是我们会结合越来越多不同来源的数据。

200

谷歌和Facebook的理念则是人就是社会关系、网上互动和内容搜索的加和。所以，为了全面调查一个人，调查员需要得到关于这个人的最广泛的信息，不仅是他们认识的人，还包括这些人又认识哪些人等。……不过，虽然企业和政府拥有的这种采集个人信息的能力，

让我们感到很困扰，但也还是没有大数据所引起的另一个新问题让我们更恐慌，那就是用预测来判断我们。

201

预测与惩罚，不是因为“所做”，而是因为“将做”——人们不是因为所做而受到惩罚，而是因为将做，即使他们事实上并没有犯罪。……例如，里士满市的警察一直觉得在枪击事件之后会出现一个犯罪高峰期，大数据证明了这种想法，但也发现了一个漏洞，即高峰期不是紧随枪击事件而来的，而是两个星期之后才会出现。

202

大数据通过给予我们关于个人自身更详尽的数据信息，帮我们规避了“画像”的缺陷——直接将群体特征强加于个人。

205

基于未来可能行为之上的惩罚是对公平正义的亵渎，因为公平正义的基础是人只有做了某事才需要对它负责。……社会关于个人责任的基本信条是，人为其选择的行为承担责任。

205

也许，大数据预测可以为我们打造一个更安全、更高效的社会，但是却否定了我们之所以为人的重要组成部分——自有选择的能力和行为责任自负。大数据成为了集体选择的工具，但也放弃了我们的自由意志。

大数据的不利影响并不是大数据本身的缺陷，而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因，因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。

207

麻烦的是，人们习惯性地从因果关系的视角来理解世界。因此，大数据总数被滥用于因果分析，而且我们往往非常乐观地认为，只要有了大数据预测的帮助，我们进行个人罪责判定就会更高效。

207

大数据大大地威胁到了我们的隐私和自由，这都是大数据带来的新威胁。但是与此同时，它也加剧了一个旧威胁：过于依赖数据，而数据远远没有我们所想的那么可靠。

208

美国军方在越战时对数据的使用、滥用和误用给我们提了个醒，在由“小数据”时代向大数据时代转变的过程中，我们对信息的一些局限性必须高度的重视。数据的质量可能会很差；可能是不客观的；可能存在分析错误或者具有误导性；更糟糕的是，数据可能根本达不到量化它的目的。

我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是，我们可能会完全受限于我们的分析结果，即使这个结果理应受到质疑。或者说，我们会形成一种对数据的执迷，因而仅仅为了收集数据而收集数据，或者赋予数据根本无权得到的信任。

210

与数据为伴的人可以用一句话概括这些问题，“错误的前提导致错误的结论。”有时候，是因为用来分析的数据质量不佳；但在大部分情况下，是因为我们误用了数据分析结果。大数据要么会让这些问题高频出现，要么会加剧这些问题导致的不良后果。211

其实，卓越的才华并不依赖于数据。史蒂夫·乔布斯多年持续不断地改善Mac笔记本，依赖的可能是行业分析，但是他发行的iPod、iPhone和iPad靠的就不是数据，而是直觉——他依赖于他的第六感。当记者问及乔布斯苹果推出iPad之前做了多少市场调研时，他那个著名的回答是这样的：“没做！消费者没义务去了解自己想要什么。”

212

只要得到了合理的利用，而不单纯只是为了“数据”而“数据”，大数据就会变成强大的武器。

213

谷歌流感趋势的核心思想是这些检索词条和流感爆发相关，但是这也可能只是医疗护工在办公室听到了有人打喷嚏，然后上网查询如何防止自身感染，而不是因为他们自己真的生病了。

214

必须杜绝对数据的过分依赖，以防我们重蹈伊卡洛斯的覆辙。

215

伊卡洛斯，希腊神话人物，是希腊神话中戴达罗斯的儿子。与戴达罗斯使用蜡和羽毛造的双翼逃离克里特岛时，因过于自信，飞的太高，双翼上的蜡遭太阳炙热烤融化而跌落水中丧生，被埋葬在一个海岛上。

08掌控——责任与自由并举的信息管理

当世界开始迈向大数据时代时，社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时，大数据早已在推动人类信息管理准则的重新定位。然而，不同于印刷革命，我们没有几个世纪的时间去适应，我们也许只有几年的时间。

217

变革并不止于规范。这种管理规范上的改变也体现了当时更深层次的价值观转变。在古登堡时期，人类第一次意识到了文字的力量；最终，也意识到了信息广泛传播的重要性。几个世纪过去了，我们选择获取更多的信息而非更少，并且借助限制信息滥用的规范而不是最初的审查来防止其泛滥。

219

管理变革1：个人隐私保护，从个人许可到让数据使用者承担责任。……将责任从民众转移到数据使用者很有意义，也存在充分的理由，因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估避免了商业机密的泄露。也许更为重要的是，数据使用者是二级应用的最大受益者，所以理所当然应该让他们对自己的行为负责。

220

为实现这一平衡，监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。……公司可以利用数据的时间更长，但相应地必须为其行为承担责任以及有特定时间之后删除个人数据的义务。222

管理变革2：个人动因VS预测分析……在大数据时代，关于公正的概念需要重新定义以维护个人动因的想法：人们选择自我行为的自由意志。简单地说，就是个人可以并应该为他们的行为而非倾向负责。

223

社会越是用干预、降低风险的方式取代为自己的行为负责，就越会导致个人责任意识的贬值。

225

大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判，而不是借助“客观”数据处理去决定他们是否违法。只有这样，我们才是把其当做人来对待——当做有行为选择自由和通过自主行为被评判的人。这就是从大数据推论到今天的无罪推定原则。

226

管理变革3：击碎黑盒子，大数据算法师的崛起……大数据将要求一个新的人群来扮演这种角色，也许他们会被称作“算法师”。他们有两种形式：在机构外部工作的独立实体和机构内部的工作人员——正如公司有内部的会计人员和进行鉴证的外部审计师。

228

管理变革4：反数据垄断大亨……伴随着从核心技术到生物工程学其他领域的发展，人类总数先创造出可能危害自身的工具，然后才着手建立保护自己、防范危险的安全机制。

232

结语——正在发生的未来

大数据并不是一个充斥着运算法则和机器的冰冷世界，其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作，也能带来成功，或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确，因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样，因为这些数据服务的是更加广大的目标。毕竟混乱构成了世界的本质，也构成了人脑的本质，而无论世界的混乱还是人脑的混乱，学会接受和应用它们才能得益。

245

如果亨利·福特问大数据他的顾客想要的是什么，大数据将会回答，“一匹更快的马。”在大数据的世界中，包括创意、直觉、冒险精神和知识野心在内的人类特性的培养显得尤为重要，因为进步正是源自我们的独创性。

西方谚语有云：“预测未来最好的办法就是创造未来。”这句话在大数据时代亦应当铭记。

247

大数据是一种资源，也是一种工具。它告知信息但不解释信息。它指导人们去理解，但有时也会引起误解，这取决于是否被正确使用。