第一章遇见hadoop 第一节数据(hadoop:the definitive guide)

最新推荐文章于 2021-04-19 20:07:18 发布

fkbush

最新推荐文章于 2021-04-19 20:07:18 发布

阅读量507

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

在拓荒时代，人们使用牛来拉重物，当一头牛拉不动时，他们不是努力养一头

更大的牛。我们不应该试图创建更大的电脑，而应该用更多的计算机系统。

--Grace Hopper

数据！

我们生活在一个数据时代。去衡量电子数据的总量是很困难的，但是互联网数据中心（IDC）

在2013年估计“数字宇宙”的大小为4.4ZB（1ZB=1万亿GB），预测到2020年会翻倍增长达到44ZB。

1ZB=1024EB=100万PB=10亿TB。它比世界上任何人的硬盘都要大。

这些大量的数据有许多的来源。请看下面：

纽约证券交易所每天产生1-5TB的数据。
FACEBOOK有超过2400亿张照片，每月增长7PB数据。
ancestr.com,一个地理网站，存储了大约10PB数据。
互联网档案馆存储了大约18.5PB的数据。
位于瑞士日内瓦的大型强子对撞机，每年产生30PB的数据。

所以那里有许多数据。但是你也许会想它关你什么事。大部分的数据被存储在网站（如搜索引擎）或

科学或金融机构，不是吗？大数据时代的到来会影响小的机构或个人吗？

我相信它会。比如拍照，我的妻子的祖父是一个狂热的摄影师，他的整个成人时期都在照相。他所有的

作品在使用高分辨率扫描之后，占用大约10G。与此相对，我们家在2008年用数据照相机拍的照片有5G。

我们家产生的照片数据是我妻子祖父的35倍，并且这个值每年都会增长，因为拍照变得越来越容易。

更普遍的是,个人产生的数字流正在快速增长。微软研究院的"我的生活片段"的项目显示，个人信息的归档整理

可能在不久的将来变得司空见惯。"我的生活片段"是一个个人交互的实验--电话,电子邮件,文档--　　

被捕获和存储供以后访问。收集的数据包括每一分钟拍一张照片,导致整体数据量每月增长1 gb。当存储成本下降足以

使它可行的存储连续的音频和视频,未来的"我的生活片段"中的服务的数据量将会是现在的数倍。

趋势是每一个个人的数据都在增长，但是更引人注目的是，作为物联网的机器产生的数据比人类产生的数据要大的多。

机器日志、无线射频识别器（RFID），网络传感器，车辆GPS轨迹，商品交易--所有这引起都导致数据总量的增长。

公开可见的数据量也在每年递增。组织机构不再是仅仅管理他们自己数据；将来想要成功很大程度上依赖于他们从

别的组织机构提取数据的能力。

自发的公共数据如Amazon WebServices和infochimps.org的存在促进了信息共享空间的发展，在那里每个人都可以

免费（或是很低的价格）下载和分析。不同信息源可以混搭出迄今为止让人出乎意料难以想象的应用。

拿astrometry.net 工程举例来说，它关注天文测量小组的网络相册，查找新的夜空照片。它分析每一张照片并确定

它是天空的哪一部分，同时也观察有趣的天体，比如星星和星系。这个工程显示了当数据被公开时，它可以被用于

它的创建者想象不到的地方（比如图片分析）。

有人说，更多的数据通常会打败更优秀的算法，它的意思是说对于一些问题（比如基于爱好推荐电影或音乐），尽管

你有非常牛B的算法，但它会被更多的数据（并且较一般的算法）轻易的击败。

好消息是大数据就在这儿。坏消息是我们不得不为了它的存储和分析而努力奋斗。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。