大数据:一场改变我们如何生活、工作和思考的革命(让数据说话)

让数据说话

信息社会的果实很容易被看到,例如每个口袋里的手机,每个包里的电脑和在各处办公室中的大的后台系统。但不容易看到的是信息自己。电脑进入主流社会半个世纪以来,数据开始积累到一个点,一些新的特殊的事情即将发生。不仅仅是信息爆炸,而且信息增长的速度更快。规模的改变导致状态的改变。数量的改变导致质量的改变。象空间和基因学科,在2000年首先经历了这个爆炸,创造了“大数据”这个词。这个概念现在迁移到人类的所有领域里。

         大数据没有一个非常严格的定义,初始的意义是信息增长太大了,已经不再适合放到计算机内存当中进行处理了,所以工程师需要开发更好的工具来分析数据。这是新的处理技术的来源,例如谷歌的MapReduce和同等开园的Hadoop,它来自雅虎。这能够让人们管理比以前更大量的数据,重要的是这些数据不需要存储到表格里或经典的数据表格里。其它数据处理技术分配数据到不容易改变的层次里,以往的同质化也是在水平的。同时,因为互联网公司能够收集到巨量的数据并且有财务方面的激励,他们变成了大数据处理的领导者,代替了线下有几十年经验的公司。

         今天去考虑问题的方法和我们在这本书里做的方法是这样的,我们能以大规模的方式去做大数据相关的事情,不能以小规模的方式去做,去抽取新的观点或者创造新的价值,在方法上改变市场,组织和市民与政府的关系,其它更多的东西。

         但这仅仅是开始,大数据时代挑战我们的生存方式和与世界交互的方式。更惊人的是,社会将流出一些妄想的因果关系与简单的关联交换:不知道为什么但知道什么。这改变了几个世纪以来建立的实践和挑战我们最基本的怎样做决定和理解现实的考虑。

         大数据标明了一个主要转变的开始。大数据将是硅谷炒作的臭名昭著的循环的受害者:经过杂志封面和工业会议的邀请之后,趋势将消退并且数据重拳出击者将斗争。但迷恋和诅咒对于这个重要性的不理解都将发生。仅仅当望远镜使得我们理解宇宙空间,显微镜使得我们理解细菌,新的收集和分析大数据的技术帮助我们了解我们的世界。在这本书里,我们不做大数据的传道者,只是信使。并且,真正的革命不是计算大数据的机器,而是大数据本身和我们怎样利用它。

         去欣赏信息革命的程度已经起航,考虑来自真个社会范围的趋势,我们的数字宇宙在不断的扩展中。拿天文学来说,当斯隆数字天空调查在2000年开始的时候,这个天文望远镜在几个星期收集的信息比天文学在整个发展史中收集的数据还多。到了2010年这个调查获得了非常大的140TB的信息量。但一个继承者,一个在智利的大的天气调查望远镜,到2016年将每五天获得大量的数据。

         这样的天文学数量也被发现更靠近我们。当科学家在2003年首次解码人类基因图谱,这将带给他们下一个十年紧张的梳理三百万个基因组的紧张工作。现在,十年之后,一个简单的设施可以梳理更多的DNA在一天之内。在金融方面,美国每天发生大约七百万股权交易,为了减少风险,大约三分之二的交易被基于数学模型的计算机算法处理。

         互联网公司已经陷入了困难。谷歌每天处理24PB的数据,这个数量相当于美国国会所有印刷材料数量的几千倍。脸谱公司,一个十年前不存在的公司,每小时获得1千万张照片。脸谱会员点击“喜欢”按钮或者写下注释将近每天三百万次。创建一个数字跟踪,这个公司能挖掘用户的喜好。同时,每月谷歌YouTube的8亿用户上传超过一小时的视频每秒钟。在推特上的信息一年增加了200倍,到 2012年已经超过了4亿推特一天。

         从健康科学,从互联网银行,这个领域将多样化,这些一起告诉一个简单的故事:世界上数据的数量增长更快,不仅仅我们的机器,而且我们的想象力也变得更好。

         很多人试图计算我们身边的信息数量并计算它增长的有多快。他们使得成功的程度多样化,因为他们测量了不同的事情。一个更广泛的关于通讯和新闻的研究被来自南加利福尼州的安嫩伯格学校的马丁希尔伯特进行。他试图放一个数字在每个被产生、存储和通讯的事情上。这不仅包括书,绘画,邮件,照片,音乐和视频(模拟和数字),而且包括视频游戏,电话通话,甚至汽车导航系统,还有通过邮件发出的信。也包括象基于到达每个观众的电视和广播信号。

         通过希尔伯特的计算,在2007年将有超过300EB的数据存储。去理解这意味着什么,考虑这象什么。一个电影工厂的一个全长度的电影能被压缩到一个GB文件。一个EB相当于一百万个GB。简单说,它太多了。有趣的是,在2007年,只有百分之七的数据是模拟的(文章,书,照片和其它)。剩下的都是数字的。但不久之前照片看起来非常不同。尽管自从1960年开始,信息革命和数字时代的含义就广泛宣传了,他们变成现实通过一些设备。在2000年以来,存储的信息四分之一是数字的。其它四分之三是在纸张上,电影,黑胶唱片记录,磁带设备等。

         那些上网冲浪和在线买书很长时间的人认为数字信息的规模不大(事实上,1986年大约百分之四十的计算设备是口袋设备,它代表了更多的计算能力在那时比个人电脑要多),但因为数字数据扩展太快,每三年要多出一倍多,根据希尔伯特说,这个形式将很快使自己转化。相反,模拟信息几乎没有增长。所以在2013年世界上被存储的信息量大约是1200EB,其中百分之二是非数字的。

         没有好的方法考虑这个数量的数据意味这什么。如果都打印成书,将覆盖全美国的面积并以52层厚。如果放在CD-ROM,它将堆成5堆直到月亮。公元三世纪埃及的托勒密二世想要存储每一个书一个拷贝,亚历山大图书馆代表全世界知识的总和。现在数字泛滥扫描全球等同于给每一个生活在地球上的人320倍的信息被估计存储在亚历山大图书馆中。

         事情真的在加速。存储信息的增长相当于世界经济增长的四倍,计算机的处理能力是它的九倍。人们抱怨信息太多了,每一个人被这种改变冲击着。

         用一个长远的观点来看,目前的数据泛滥与早期的信息革命相比,古腾堡活字印刷术,大约1439年发明。在随后的五十年从1453到1503年有大约800万本书被印刷出版,伊丽莎白爱森斯坦历史研究机构的研究。这被认为多于所有欧洲已经出版的书,自从1200年前君士坦丁堡的建立。换句话说,它花了50年的时间几乎是欧洲信息的二倍,同大约今天的每三年相比。

         这个增长意味着什么?彼得 诺尔为,一位谷歌的人工智能专家,喜欢去做图像比较。首先,他让我们考虑来自法国的拉什科洞窟壁画的图标马,大约是17000年前的旧石器时代。然后考虑一副马的照片,巴勃罗毕加索的画,它看起来不像是洞窟里的绘画。事实上,毕加索展示的是仿照拉什科的壁画,自从那以后,“我们什么也没有发明”。

         毕加索的话在一方面是真理,但在另一方面不是。再看马的图片,需要花很长的时间画一匹马,现在一个代表可以被更快的用照相制作出来。这是一个改变,但这也许不是最基本的,因为它最基本的仍然是一样的:一匹马的图像。但现在,诺尔为恳求考虑捕获一匹马的图像并且速度是每秒24帧。现在,数量的变化带来了质量的变化。电影同静态的照片是根本上不同的。这是相同的与大数据:通过改变数量,我们改变了基本定理。

         考虑来自纳米技术的类比,在那里事情变得更小,而不是更大。纳米技术背后的原理是,当你达到分子的级别,物理的属性能够改变。知道这些新的特点意味这你能发明材料去做事情,那以前不能做到的。在纳米级别,例如,更灵活的金属和可伸缩的陶瓷是可能的,相反的,当我们增加数据的规模,我能做新的事情,但更小的数量我们不能做新的事情。

         有时我们生活在限制当中,并且盲目的相信每件事情是相同的,我们操作的仅仅是规模的功能。拿第三个模拟来自科学。对于人类,一个最重要物理规则是重力感应:它统治着所有我们所做的行为。但对于小的昆虫,重力几乎是不重要的。对于水中的漫游者,这个物理世界的法则是表面的紧张,它允许它们沿着池塘走而不落下去。

         对于物理学,用信息测量事物的大小。然而谷歌能够诊断出流感的患病率而官方的数据是基于实际病人对医生的访问。通过仔细的搜索几百亿的搜索关键词能够产生实时的答案,比官方的来源更加快。然而,埃齐奥尼的Farecast公司能够预测一家航空公司机票的波动并且转换大量的经济能力到消费者的手里。所以这两块都可以做好通过分析上百亿的数据量。

         这两个例子显示了大数据的科学和社会属性的重要性,也是大数据能够成为经济价值的一个源泉。他们标明通过这两个方式,大数据准备动摇每一件事情,从商业和科学,到医疗,政府,教育,经济,人类和社会的其它每一个方面。

         尽管我们处于大数据开始的时期,我们每天依靠大数据。不需要的邮件过滤被设计自动采用:软件不能被程序化去知道阻止“via6ra”或者无穷的变种。婚介网站结对夫妇基于那些与之前成功的匹配相关联的大量属性。智能手机中的自动矫正功能指导我们的行动并且增加新的单词到拼写词典基于我们输入了什么。然而这些应用只是刚刚开始。从检测汽车转弯或刹车到IBM的沃森计算机在游戏中击败人类显示了危险的境地。这个方法将改造我们生活的这个世界的许多方面。

         作为核心,大数据是关于预测的。尽管它被描述作为计算机科学中叫做人工智能分支的一个部分,更特指的一个领域叫做机器学习,这是一个特征的误导。大数据没有试图去教计算机象人类一样思考。相反,它应用数学到大量数据目的是为了推断可能性的结论:这些可能性包括邮件信息是一个垃圾邮件;敲入的单词“teh”被猜想是“the”;一个正在横穿马路的人的轨迹和速度意味着自动驾驶汽车将减慢速度但看到他正在横穿马路的时候。这些系统能工作好的关键是它们基于大量数据做出的预测。此外,系统被建立成总是不断地提高自己,通过保持一个标签基于最好的信号和模式来寻找更多需要的数据。

         在未来,许多捷足先登者认为我们的世界的许多方面将被计算机系统扩充或者代替,那些今天被认为是人类判断的唯一领域。不仅是牵线搭桥的驱使,更是因为复杂的任务。亚马逊能够推荐理想的书,谷歌能够排名最相关的网站,脸谱知道我们的喜爱,社交网站能够占卜我们想找的人。同样的技术将被应用到诊断疾病,推荐药方,甚至能够识别出罪犯在一个人犯罪之前。通过增加通讯到计算机,互联网从根本上改变了世界。所以大数据也将改变生活的基本方面,通过给它大量的纬度。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值