大数据:一场改变我们如何生活、工作和思考的革命(第一章 现在)

 

第一章  现在

在2009年一个新的病毒流感被发现了。这个叫做H1N1的新菌株扩散的非常快,它结合了引起鸟流感和猪流感的元素。在几个星期内,全世界的公共卫生机构都对这种流行疾病感到害怕。一些评论员警告在1918年爆发的西班牙病毒流感影响了5亿人并造成几千万人的死亡。更为严重的是没有阻止这种新的病毒扩散的疫苗,公共卫生机构唯一的希望是减缓病毒的扩散速度。但他们需要知道病毒的来源。

         在美国,疾病控制和防御中心要求医生通知他们新的病毒感染病例。但是这种流行性疾病已经出现了一两个星期了。感觉到身体不舒服的人需要排队等待医生的诊治。采集到的信息传送到中心机构需要花时间,并且疾控中心一星期做一次报表。随着疾病的快速扩散,两星期一次的报告显得滞后了。在那个重要的时刻,这种延迟蒙蔽了公共健康医疗机构。

         在H1N1病毒变为报纸头条之前的几个星期,谷歌公司的工程师在科学自然杂志上发表了一片引人注目的论文。它建立的健康官员和计算机科学家之前的联系被忽略了。作者解释了谷歌云预测了冬季流感在美国的扩散,不仅在国家层面,可以预测到具体的地区甚至州。这个公司能够获得这个是通过看人们正在因特网上搜索什么。因为谷歌搜索引擎每天接受三十亿次的搜索量并且保存这些信息,这形成了大量的数据信息。

         谷歌用这些美国网民输入的5千万多条信息与疾控中心发布的在2003年到2008之间的季节性流感数据进行比较。这个主意是通过网民在因特网上搜索什么来确定哪些地区被流行性病毒影响。其他人也想这样做,但不像谷歌公司那样有大量的数据,处理能力和统计方法。

         当谷歌人猜测取得流感信息是通过搜索象“感冒和发烧的药”这样的语句时,但事实并不是这样,他们不知道他们设计的系统不关心这个。他们的系统做的只是寻找某种搜索词的频率与流感扩散的时间和空间的关联。他们总共处理了惊人的4亿5千万个不同的数学模型,目的是去测试这些搜索词与基于来自疾控中心的2007和2008年实际的流感病例的预测进行对比。并且他们挖到了金矿,他们的软件发现了他们的预测和官方发布的全国的数字之间有一个很强的关联,通过45个搜索词的组合用在一个数学模型当中。他们能够象疾控中心那样哪里的流感已经扩散了,但与疾控中心不同的是他们几乎能够实时的报告,而不是等事情发生了一二周之后。

         这样当H1N1危机在2009年发生的时候,谷歌的系统被证明是更有用的并且更实时的报告,比政府的统计数据,这些数据带有时间的滞后。公共卫生官员可以利用更有价值的信息。

         谷歌的方法惊人之处在于并没有涉及到接触医生的办公室。而是建立在“大数据”之上,社会的力量,用不同利用信息的方法产生有用的洞察或者极有价值的服务。在2012年,它确定了一次突然的流感爆发,但夸大了这个数量,也许是因为媒体关于这次流感的过度渲染。那是明显的,在下一次流感大流行来的时候,我们将有一个更好的工具来预测并阻止流感的扩散。

         公众健康仅是大数据应用的一个领域。整个商业层面也正在被大数据重塑。买飞机票是一个很好的例子。在2003年,奥伦埃齐奥尼需要从西雅图飞往洛杉矶去参加他弟弟的婚礼。在婚礼这天的前几个月,他上网并且买了一张飞机票,他相信他订票越早,票越便宜。在飞行当中,好奇心驱使他问他旁边座位的小伙子他的票是多少钱买的,并且什么时候买的票。结果是这个男人买的票比埃齐奥尼便宜,甚至他买票的时间也更近。埃齐奥尼被激怒了,他问另一个旅客,这个人买的也比他便宜。

         对于大多数人,在那时经济方面的引诱将被驱散,我们关上托盘桌,放起我们的座椅,站起来,并且保持那个姿势。但埃齐奥尼是最重要的计算机科学家之一,他看到这是他能够解决的一个大数据问题,并且他已经掌握了他们,因为他是1986年从哈佛毕业的计算机专业的本科生。

         从华盛顿大学更高的学位毕业后,在“大数据”这个词变得流行之前,他已经开始在很多大数据公司工作了。他帮助建立了第一个基于Web的搜素引擎,叫MetaCrawler,它在1994年上线,并被InforSpace收购,一个主要的在线资产。他合伙创建了Nebot公司,一个比较购物网站,后来他卖给了Excite公司。他开始了从文字文档中抽取意义的公司叫ClearForest,后来被路透社获得。

         回到陆地,埃齐奥尼决定为人们找到一个方法知道在线买的的票价是便宜还是贵。一个飞机上的座位是一个商品,每一个人的座位同其他人的座位是很相似的。然而价格有很大的不同,原因是多方面的,这些原因只有航空公司自己知道。

         埃齐奥尼觉得他不需要知道价格不同的原因。相反他需要预测出价格在为了是升高还是降低。那是可能的,但不容易做到。需要做的是分析所有航线机票的交易和检查支付的机票票价与离出发时间的天数的关系。

         如果平均的机票价格趋向降低,它预示可以等着更晚的时间再买。如果平均价格趋向增加,系统将推荐立刻买票。换句话说,所有需要做的是埃齐奥尼要提高效率进行非正式的调查,他执行了三万英尺。确实这是一个大规模的计算机科学问题,但这个问题他能够解决,所以他开始工作。

         通过从一个旅游网站下载了41天的有关12000个票价调查数据信息,埃齐奥尼创建了一个预测模型,它能够为相似的顾客节省一大笔开销。这个模型不理解为什么,只知道做什么。这是因为它不知道任何导致航空公司价格决定的任何变量,例如仍然保留没有卖掉的座位数量,季节性,或者是否一些特殊的日子例如星期六晚上可以减少费用,它的预测基于它知道的这些,收集关于其它飞行的可能的数据,“去买或者不买,这是一个问题”,埃齐奥尼沉思,他很恰当的命名他的研究项目为哈姆雷特。

         这个小项目引来一家叫做Farecast的风险资本公司的支持。通过预测一家航空公司的机票几个是上升还是下降,幅度是多少,Farecast给消费者去选择点击“购买”按钮一个动力。它瞄准了那些以前从来没有访问过这些信息的人。坚持自身的透明度,Farecast甚至标明信心程度的分数,它在自己的预测并阻止这些信息给用户。

         这个系统需要大量的数据才能工作。为了提高系统的性能,埃齐奥尼建立这个系统在一个工业级的飞行预定系统数据库。用这些信息,这个系统能在一年内进行预测基于每个座位在美国大多数航线。Farecast现在处理将近200亿飞行价格记录去做预测。这样做,它节省了消费者一些费用。

         披着棕色的沙质头发,露齿笑,天真无邪的表情,埃齐奥尼似乎不像那种去掉航空工业几百万美元潜在收入的人。事实上,他有比做这个更多事情的理想。在2008年,他计划应用这个方法在其它商品例如酒店房间、音乐会门票和旧车,任何事情带有少的不同点、大的几个范围和大量的数据。但在抛出这些计划之前,微软来敲他的门,用大约110万美元收购Farecast,并且集成它进入Bing搜索引擎。到2012年这个系统能够在75%的时间正确工作并平均为每个乘客节省50美元。

         Farecast是一个典型的大数据公司的例子和世界朝哪里前进的例子。埃齐奥尼不能在5年或10年之前建立这家公司。“那将是不可能的”,他说。他需要的计算能力和存储太昂贵了。但尽管技术上的改变是一个关键的因素使得那变成可能,一些改变也更重要,一些事情是不可预见的。有一个关于数据如何利用在思维模式上的改变。

         数据不在被认为是静态的或陈旧的,一旦某个目的被达到了,它的价值就体现出来,例如飞机着陆了(或者在谷歌的例子,一旦搜索查询被处理了)。当然啦,数据变成商业的原始材料,一种很重要的经济输入,被用来创造新的经济价值。事实上,用正确的思维模式,数据能清楚地被重新利用作为创新和新服务的源泉。数据能够揭露那些谦虚的、乐意的和去听的工具的秘密。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值