(自学大数据系列)第一章:初识Hadoop

1、数据现状

2006年数字世界(digital universe)项目统计得出全球数据总量为0.18ZB,2011年将达到1.8ZB

(1ZB = 1 000EB = 1 000 000PB = 1 000 000 000TB)数据增长速度也在加快。

2、数据的存储

数据读取速度慢:在硬盘容量不断提升的同时,数据的读取速度却没有与时俱进,目前数据的读取速度也仅为100MB/S。

解决办法:可以把数据存放在多个硬盘中,每个硬盘存储1% 的数据,读取数据时,100个job同时运行,时间消耗就大大的缩短。

Hadoop采取了并行读取数据的方法来减少时间,单同时也要解决并行读写产生的问题:

1)、硬件故障,HDFS(Hadoop Distributed File System)要求文件存储时一式三份,分别存储在不同的硬件设备,当其中一个硬件发生故障时,会从其他副本中获取数据。

2)、做数据分析时,很多数据都是相互依赖使用的。Hadoop开发出了MapReduce编程模式,该模型抽象出这些硬盘上读取文件的内容并将其转化为一个数据集(由键值对组成)的计算。

Hadoop提供了可靠的共享存储和分析系统,HDFS实现数据存储,MapReduce实现数据的分析和处理。这两个是Hadoop的核心功能。

产生MapReduce的原因是因为硬盘发展的一个趋势造成:

1)、传输效率的提升效果远大于减少寻址时间产生的效果

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值