第一章 遇见hadoop 第一节 数据(hadoop:the definitive guide)

      在拓荒时代,人们使用牛来拉重物,当一头牛拉不动时,他们不是努力养一头

更大的牛。我们不应该试图创建更大的电脑,而应该用更多的计算机系统。

                                                                                                                                 --Grace Hopper


数据!

    我们生活在一个数据时代。去衡量电子数据的总量是很困难的,但是互联网数据中心(IDC)

在2013年估计“数字宇宙”的大小为4.4ZB(1ZB=1万亿GB),预测到2020年会翻倍增长达到44ZB。

1ZB=1024EB=100万PB=10亿TB。它比世界上任何人的硬盘都要大。

    这些大量的数据有许多的来源。请看下面:

  • 纽约证券交易所每天产生1-5TB的数据。
  • FACEBOOK有超过2400亿张照片,每月增长7PB数据。
  • ancestr.com,一个地理网站,存储了大约10PB数据。
  • 互联网档案馆存储了大约18.5PB的数据。
  • 位于瑞士日内瓦的大型强子对撞机,每年产生30PB的数据。

    所以那里有许多数据。但是你也许会想它关你什么事。大部分的数据被存储在网站(如搜索引擎)或

科学或金融机构,不是吗?大数据时代的到来会影响小的机构或个人吗?

    我相信它会。比如拍照,我的妻子的祖父是一个狂热的摄影师,他的整个成人时期都在照相。他所有的

作品在使用高分辨率扫描之后,占用大约10G。与此相对,我们家在2008年用数据照相机拍的照片有5G。

我们家产生的照片数据是我妻子祖父的35倍,并且这个值每年都会增长,因为拍照变得越来越容易。

    更普遍的是,个人产生的数字流正在快速增长。微软研究院的"我的生活片段"的项目显示,个人信息的归档整理

可能在不久的将来变得司空见惯。"我的生活片段"是一个个人交互的实验--电话,电子邮件,文档--  

被捕获和存储供以后访问。收集的数据包括每一分钟拍一张照片,导致整体数据量每月增长1 gb。当存储成本下降足以

使它可行的存储连续的音频和视频,未来的"我的生活片段"中的服务的数据量将会是现在的数倍。

    趋势是每一个个人的数据都在增长,但是更引人注目的是,作为物联网的机器产生的数据比人类产生的数据要大的多。

机器日志、无线射频识别器(RFID),网络传感器,车辆GPS轨迹,商品交易--所有这引起都导致数据总量的增长。

    公开可见的数据量也在每年递增。组织机构不再是仅仅管理他们自己数据;将来想要成功很大程度上依赖于他们从

别的组织机构提取数据的能力。

    自发的公共数据如Amazon WebServicesinfochimps.org的存在促进了信息共享空间的发展,在那里每个人都可以

免费(或是很低的价格)下载和分析。不同信息源可以混搭出迄今为止让人出乎意料难以想象的应用。

    拿astrometry.net 工程举例来说,它关注天文测量小组的网络相册,查找新的夜空照片。它分析每一张照片并确定

它是天空的哪一部分,同时也观察有趣的天体,比如星星和星系。这个工程显示了当数据被公开时,它可以被用于

它的创建者想象不到的地方(比如图片分析)。

    有人说,更多的数据通常会打败更优秀的算法,它的意思是说对于一些问题(比如基于爱好推荐电影或音乐),尽管

你有非常牛B的算法,但它会被更多的数据(并且较一般的算法)轻易的击败。

    好消息是大数据就在这儿。坏消息是我们不得不为了它的存储和分析而努力奋斗。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值