来自大数据的反思：需要你读懂的10个小故事_the age of big data lohr, steve-CSDN博客

http://www.csdn.net/article/2015-07-28/2825312

来自大数据的反思：需要你读懂的10个小故事

发表于 2015-07-28 09:03| 12854次阅读| 来源 CSDN| 25 条评论| 作者张玉宏

allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-07-28%2F2825312&type=3&count=&appkey=&title=%E9%9A%8F%E7%9D%80%E5%90%84%E7%A7%8D%E6%8A%80%E6%9C%AF%E5%8F%91%E5%B1%95%EF%BC%8C%E5%BE%88%E5%A4%9A%E4%BA%BA%E9%83%BD%E5%9C%A8%E5%90%B9%E6%8D%A7%E5%A4%A7%E6%95%B0%E6%8D%AE%E3%80%82%E7%84%B6%E8%80%8C%E5%A6%82%E5%90%8C%E8%82%A1%E5%B8%82%E4%B8%80%E6%A0%B7%EF%BC%8C%E8%B6%8A%E6%98%AF%E9%AB%98%E6%B6%A8%EF%BC%8C%E8%B6%8A%E6%98%AF%E9%9C%80%E8%A6%81%E8%AD%A6%E9%86%92%EF%BC%8C%E5%9C%A8%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%83%AD%E7%81%AB%E6%9C%9D%E5%A4%A9%E5%89%8D%E8%A1%8C%E7%9A%84%E8%B7%AF%E4%B8%8A%EF%BC%8C%E5%A4%9A%E4%B8%80%E7%82%B9%E5%8F%8D%E6%80%9D%EF%BC%8C%E5%A4%9A%E4%B8%80%E4%BB%BD%E5%86%B7%E9%9D%99%EF%BC%8C%E6%88%96%E8%AE%B8%E8%83%BD%E8%AE%A9%E8%BF%99%E8%B7%AF%E8%B5%B0%E7%9A%84%E6%9B%B4%E5%A5%BD%E3%80%81%E6%9B%B4%E8%BF%9C%E3%80%82%E6%9C%AC%E6%96%87%E7%9A%8410%E4%B8%AA%E5%B0%8F%E6%95%85%E4%BA%8B%EF%BC%8C%E6%88%96%E8%AE%B8%E8%83%BD%E8%AE%A9%E4%BD%A0%E6%9C%89%E6%89%80%E5%BE%97%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1438738082391" width="22" height="16"> 摘要：随着各种技术发展，很多人都在吹捧大数据。然而如同股市一样，越是高涨，越是需要警醒，在大数据热火朝天前行的路上，多一点反思，多一份冷静，或许能让这路走的更好、更远。本文的10个小故事，或许能让你有所得。

自2011年以来，大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑，大数据已然成为继云计算、物联网之后新一轮的技术变革热潮，不仅是信息领域，经济、政治、社会等诸多领域都“磨刀霍霍”向大数据，准备在其中逐得一席之地。

中国工程院李国杰院士更是把大数据提升到战略的高度，他表示^【1】，数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术，在数据技术与产业上的落后，将使我们像错过工业革命机会一样延误一个时代。

在这样的认知下，“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势（Google Trends）显示的有关大数据热度的趋势，从图1中可以看到，在未来的数年里，“大数据”的热度可能还是“高烧不退”（图1中虚线为未来趋势）。

图1 大数据趋势（图片来源：作者截图）

在大数据热火朝天前行的路上，多一点反思，多一份冷静，或许能让这路走的更好、更远？例如，2014年4月，大名鼎鼎的《纽约时报》发表题为《大数据带来的八个（不，是九个！）问题》（Eight (No, Nine!) Problems With Big Data）”的反思文章^【2】，其中文中的第九个问题，就是所谓的“大数据的炒作（we almost forgot one last problem: the hype）”。同样为重量级的英国报刊《财经时报》（Financial Times，FT）也刊发了类似反思式的文章“大数据：我们正在犯大错误吗？（Big data: are we making a big mistake?）”^【3】

在大数据热炒之中，大数据的价值是否被夸大了？是否存在人造的“心灵鸡汤”？大数据技术便利带来的“收之桑榆”，是否也存在自己的副作用——“失之东隅”——个人的隐私何以得到保障？大数据热炒的“繁华过尽”,数据背后的巨大价值是否还能“温润依旧”？在众声喧哗之中，我们需要冷静审慎地思考上述问题。

太多的“唐僧式”的说教，会让很多人感到无趣。下文分享了10个从“天南地北”收集而来的小故事（或称段子），从这些小故事中，可对热炒的大数据反思一下，这或许能让读者更加客观地看待大数据。有些小故事与结论之间的对应关系，或许不是那么妥帖，诸位别太较真，读一读、乐一乐、想一想就好！

故事01：大数据都是骗人的啊——大数据预测得准吗？

从前，有一头不在风口长大的猪。自打出生以来，就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西，小猪觉得日子惬意极了！高兴任性时，可在猪圈泥堆里打滚耍泼。忧伤时，可趴在猪圈的护栏上，看夕阳西下，春去秋来，岁月不争。“猪”生如此，夫复何求？
根据过往数百天的大数据分析，小猪预测，未来的日子会一直这样“波澜不惊”地过下去，直到它从小猪长成肥猪……在春节前的一个下午，一次血腥的杀戮改变了猪的信念：尼玛大数据都是骗人的啊……惨叫嘎然而止。

图2 大数据预测：都是骗人的

这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的^【4】。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。

我们知道，针对大数据分析，无非有两个方面的作用：（1）面向过去，发现潜藏在数据表面之下的历史规律或模式，称之为描述性分析（Descriptive Analysis）；（2）面向未来，对未来趋势进行预测，称之为预测性分析（Predictive Analysis）。把大数据分析的范围从“已知”拓展到了“未知”，从“过去” 走向 “将来”，这是大数据真正的生命力和“灵魂” 所在。

那头“悲催”的猪，之所以发出“大数据都是骗人的啊”呐喊，是因为它的得出了一个错误的“历史规律”：根据以往的数据预测未来，它每天都会过着“饭来张口”的猪一般的生活。但是没想到，会发生“黑天鹅事件”——春节的杀猪事件。

黑天鹅事件（Black Swan Event) 通常是指，难以预测的但影响甚大的事件，一旦发生，便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所著的畅销书《黑天鹅》，来获得对“黑天鹅事件”更多的理解。

其实，我们不妨从另外一个角度来分析一下，这个搞笑的小寓言在“黑”大数据时，也有失败的地方。通过阅读知道，舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是：大数据即全数据（即n=All，这里n为数据的大小），其旨在收集和分析与某事物相关的“全部”数据，而非仅分析“部分”数据。

那头小猪，仅仅着眼于分析它“从小到肥”成长数据——局部小数据，而忽略了“从肥到没”的历史数据。数据不全，结论自然会偏，预测就会不准。

要不怎么会有这样的规律总结呢：“人怕出名，猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史，天天都上演的还少吗？上面的小寓言，其实是告诉我们：数据不全，不仅坑爹，还坑命啊！

那么，问题来了，大数据等于全数据（即n=All），能轻易做到吗？

故事02：颠簸的街道——对不起，“n=All”只是一个幻觉

波士顿市政府推荐自己的市民，使用一款智能手机应用——“颠簸的街道（Street Bump，网站访问链接： http://www.streetbump.org/）”。这个应用程序，可利用智能手机中内置的加速度传感器，来检查出街道上的坑洼之处——在路面平稳的地方，传感器加速度值小，而在坑坑洼洼的地方，传感器加速度值就大。热心的波士顿市民们，只要下载并使用这个应用程序后，开着车、带着手机，他们就是一名义务的、兼职的市政工人，这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无需亲自巡查道路，而是打开电脑，就能一目了然的看到哪些道路损坏严重，哪里需要维修，如图3所示。

图3 颠簸的街道（图片来源：作者截图）

波士顿市政府也因此骄傲地宣布，“大数据，为这座城市提供了实时的信息，它帮助我们解决问题，并提供了长期的投资计划”。著名期刊《连线》（Wired）也毫不吝啬它的溢美之词^【5】：这是众包（Crowdsourcing）改善政府功能的典范之作。

众包是《连线》杂志记者Jeff Howe于2006年发明的一个专业术语，用来描述一种新的商业模式。它以自由自愿的形式外包给非特定的大众网络的做法。众包利用众多志愿员工的创意和能力——这些志愿员工具备完成任务的技能，愿意利用业余时间工作，满足于对其服务收取小额报酬，或者暂时并无报酬，仅仅满足于未来获得更多报酬的前景。

然而，从一开始，“颠簸的街道”的产品设计就是有偏的（bias），因为使用这款App的对象，“不经意间”要满足3个条件：（1）年龄结构趋近年轻，因为中老年人爱玩智能手机的相对较少；（2）使用App的人，还得有一部车。虽然有辆车在美国不算事，但毕竟不是每个人都有；（3）有钱，还得有闲。前面两个条件这还不够，使用者还得有“闲心”，想着开车时打开“颠簸的街道”这个App。想象一下，很多年轻人的智能手机安装的应用程序数量可能两位数以上，除了较为常用的社交软件如Facebook或Twitter（中国用户用得较多的是微博、微信等）记得开机运行外，还有什么公益软件“重要地”一开车就记得打开？

“颠簸的街道”的理念在于，它可以提供 “n=All（所有）”个坑洼地点信息，但这里的“n=All（所有）”也仅仅是满足上述3个条件的用户记录数据，而非“所有坑洼点”的数据，上述3个条件，每个条件其实都过滤了一批样本，“n=All”注定是不成立的。在一些贫民窟，可能因为使用手机的、开车的、有闲心的App用户偏少，即使有些路面有较多坑洼点，也未必能检测出来。

《大数据时代》的作者舍恩伯格教授常用“n=All”，来定义大数据集合。如果真能这样，那么就无需采样了，也不再有采样偏差的问题，因为采样已经包含了所有数据。

畅销书《你的数字感：走出大数据分析与解读的误区》（Numbersense: How to Use Big Data to Your Advantage）的作者、美国纽约大学统计学教授Kaiser Fung，就毫不客气地提醒人们，不要简单地假定自己掌握了所有有关的数据： “N=All（所有）”常常仅仅是对数据的一种假设，而不是现实。

微软-纽约首席研究员Kate Crawford也指出，现实数据是含有系统偏差的，通常需要人们仔细考量，才有可能找到并纠正这些系统偏差。大数据，看起来包罗万象，但“n=All”往往不过是一个颇有诱惑力的假象而已。

“n=All”,梦想很丰满，但现实很骨感！

但即使具备全数据，就能轻易找到隐藏于数据背后的有价值信息吗？请接着看下面的故事。

故事03：醉汉路灯下找钥匙——大数据的研究方法可笑吗？

一天晚上，一个醉汉在路灯下不停地转来转去，警察就问他在找什么。醉汉说，我的钥匙丢了。于是，警察帮他一起找，结果路灯周围找了几遍都没找到。于是警察就问，你确信你的钥匙是丢到这儿吗？醉汉说，不确信啊，我压根就不知道我的钥匙丢到哪儿。警察怒从心中来，问，那你到这里来找什么？醉汉振振有辞：因为只有这里有光线啊！

图4 醉汉路灯下找钥匙（图片来源：经济学人）

这个故事很简单，看完这个故事，有人可能会感叹醉汉的“幼稚”、“可笑”。但不好笑的是，“乌鸦笑猪黑，自己不觉得”，这个故事也揭示了一个事实：在面临复杂问题时，我们的思维方式也常同这个醉汉所差无几，同样也是先在自己熟悉的范围和领域内寻找答案，哪怕这个答案和自己的领域“相隔万里”！

还有人甚至认为，醉汉找钥匙的行为，恰恰就是科学研究所遵循的哲学观。前人的研究成果，恰是是后人研究的基石，也即这则故事中的“路灯”。到路灯下找钥匙，虽看来有些荒唐，但也是“无奈之下”的明智之举。

数据那么大，价值密度那么低，你也可以去分析，但从何分析起？首先想到的方法和工具，难道不是当下你最熟悉的？而你最熟悉的，就能确保它就是最好的吗？

沃顿商学院著名教授、纽约时报最佳畅销书作者乔纳•伯杰（Jonah Berger）从另外一个角度，解读这个故事^【6】：在这里，浩瀚的黑夜就是如同全数据，“钥匙”就好比是大数据分析中我们要找到的价值目标，他认为，“路灯”就好比我们要达到这个目标的测量“标尺”，如果这个标尺的导向有问题，顺着这个标尺导引，想要找到心仪的“钥匙”，是非常困难的！在我们痴迷于某项自己熟悉的特定测量标尺之前，一定要提前审视一下，这个测量标尺是否适合帮助我们找到那把“钥匙”，如果不能，赶快换一盏“街灯”吧！

如果在黑暗中丢失的钥匙，是大数据中的价值，那这个价值也太稀疏了吧。下面的故事，让我们聊聊大数据的价值。

故事04：园中有金不在金——大数据的价值

人们在描述大数据时，通常表明其具备4个V特征，即4个以V为首字母的英文描述：Volume（体量大）、Variety（模态多）、Velocity（速度快）及Value（价值大）。前三个V，本质上，是为第四个V服务的。试想一下，如果大数据里没有我们希望得到的价值，我们为何还辛辛苦苦这么折腾前3个V？

英特尔中国研究院院长吴甘沙先生说，“鉴于大数据信息密度低，大数据是贫矿，投入产出比不见得好。”《纽约时报》著名科技记者Steve Lohr，在其采访报道“大数据时代（The Age of Big Data）”中表明^【⁷^】，大数据价值挖掘的风险还在于，会有很多的“误报”发现，用斯坦福大学统计学教授Trevor Hastie的话来说，就是“在数据的大干草垛中，发现有意义的“针”，其困难在于“很多干草看起来也像针（The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles）”

针对大数据的价值，李国杰院士借助中国传统的寓言故事《园中有金》，从另外一个角度，说明大数据的价值，寓言故事是这样的^【⁸^】：

有父子二人，居山村，营果园。父病后，子不勤耕作，园渐荒芜。一日，父病危，谓子曰：园中有金。子翻地寻金，无所得，甚怅然。是年秋，园中葡萄、苹果之属皆大丰收。子始悟父言之理。

人们总是期望，能从大数据中挖掘出意想不到的“大价值”。可李国杰院士认为^【⁸^】，实际上，大数据的价值，主要体现在它的驱动效应上，大数据对经济的贡献，并不完全反映在大数据公司的直接收入上，应考虑对其他行业效率和质量提高的贡献。

大数据是典型的通用技术，理解通用技术的价值，要懂得采用“蜜蜂模型”：蜜蜂的最大效益，并非是自己酿造的蜂蜜，而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果，没有蜜蜂的一份功劳？

回到前文的小故事，儿子翻地的价值，不仅在于翻到园中的金子，更是在于翻地之后，促进了秋天果园的丰收。在第03个小故事中，醉汉黑暗中寻找的钥匙，亦非最终的价值，通过钥匙打开的门才是。

对于大数据研究而言，一旦数据收集、存储、分析、传输等能力提高了，即使没有发现什么普适的规律或令人完全想不到的新知识，也极大地推动了诸如计算机软硬件、数据分析等行业的发展，大数据的价值也已逐步体现。

李国杰院士认为，我们不必天天期盼奇迹出现，多做一些“朴实无华”的事，实际的进步就会体现在扎扎实实的努力之中。一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士，应保持清醒的头脑：无华是常态，精彩是无华的质变。

如果把“大数据”比作农夫父子院后的那片土地，那么土地的面积越大，会不会能挖掘出的“金子”就越多呢？答案还真不是，下面的故事我们说说大数据的大小之争。

故事05：盖洛普抽样的成功——大小之争，“大”数据一定胜过小抽样吗？

1936年，民主党人艾尔弗雷德•兰登（Alfred Landon）与时任总统富兰克林·罗斯福（Franklin Roosevelt）竞选下届总统。《文学文摘》（The Literary Digest）这家颇有声望的杂志承担了选情预测的任务。之所以说它“颇有声望”，是因为《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中，成功地预测总统宝座的归属。
1936年，《文学文摘》再次雄赳赳、气昂昂地照办老办法——民意调查，不同于前几次的调查，这次调查把范围拓展得更广。当时大家都相信，数据集合越大，预测结果越准确。《文学文摘》计划寄出1000万份调查问卷，覆盖当时四分之一的选民。最终该杂志在两个多月内收到了惊人的240万份回执，在统计完成以后，《文学文摘》宣布，艾尔弗雷德•兰登将会以55比41的优势，击败富兰克林·罗斯福赢得大选，另外4%的选民则会零散地投给第三候选人。
然而，真实的选举结果与《文学文摘》的预测大相径庭：罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是，新民意调查的开创者乔治·盖洛普（George Gallup），仅仅通过一场规模小得多的问卷——一个3000人的问卷调查，得出了准确得多的预测结果：罗斯福将稳操胜券。盖洛普的3000人“小”抽样，居然挑翻了《文学文摘》240万的“大”调查，实在让专家学者和社会大众跌破眼镜。

显然，盖洛普有他独到的办法，而从数据体积大小的角度来看，“大”并不能决定一切。民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题：样本误差和样本偏差。

在过去的200多年里，统计学家们总结出了在认知数据的过程中存在的种种陷阱（如样本偏差和样本误差）。如今数据的规模更大了，采集的成本也更低了，“大数据”中依然存在大量的“小数据”问题，大数据采集同样会犯小数据采集一样的统计偏差^【3】。我们不能掩耳盗铃，假装这些陷阱都已经被填平了，事实上，它们还都在，甚至问题更加突出。

盖洛普成功的法宝在于，科学地抽样，保证抽样的随机性，他没有盲目的扩大调查面积，而是根据选民的分别特征，根据职业、年龄、肤色等在3000人的比重，再确定电话访问、邮件访问和街头调查等各种方式所在比例。由于样本抽样得当，就可以做到“以小见大”、“一叶知秋”。

《文学文摘》的失败在于，取样存在严重偏差，它的调查对象主要锁定为它自己的订户。虽然《文学文摘》的问卷调查数量不少，但它的订户多集中在中上阶层，样本从一开始就是有偏差的（sample bias），因此，推断的结果不准，就不足为奇了。而且民主党人艾尔弗雷德•兰登的支持者，似乎更乐于寄回问卷结果，这使得调查的错误更进了一步。这两种偏差的结合，注定了《读者文摘》调查的失败。

我们可以类比一下《文学文摘》的调查模式，试想一样，如果在中国春运来临时，在火车上调查，问乘客是不是买到票了，即使你调查1000万人，这可是大数据啊，结论毫无意外地是都买到了，但这个结果无论如何都是不科学的，因为样本的选取是有偏的。

当然，采样也是有缺点的，如果采样没有满足随机性，即使百分之几的偏差，就可能丢失“黑天鹅事件”的信号，因此在全数据集存在的前提下，全数据当然是首选（但从第02故事中，我们可以看到，全数据通常是无法得到的）。对针对数据分析的价值，英特尔中国研究院院长吴甘沙先生给出了一个排序：全数据>好采样数据>不均匀的大量数据。

大数据分析技术运用得当，能极大地提升人们对事物的洞察力（insight），但技术和人谁在决策（decision-making）中起更大作用？在下面的“点球成金”小故事，我们聊聊这个话题。