hadoop project 学习总结

hadoop 项目源自于google的几篇论文

 

http://labs.google.com/papers/gfs.html
http://labs.google.com/papers/mapreduce.html
http://labs.google.com/papers/bigtable.html
http://labs.google.com/papers/chubby.html
http://labs.google.com/papers/sawzall.html

 

HDFSGFS
Map/Reduce
HbaseBigtable
ZooKeeperChubby
PigSawzall



hdfs 提供一个分布式存储,类似于磁盘阵列。基于一个假设:文件读取操作多,很少改,读文件时总是对一个文件整个顺序读取。

  1. 把文件切分成64M的块儿,分开存储,大文件有利于提高磁盘寻道的效率,一次查找大段的读取
  2. 最好的情况下每块儿都在不同的机器上,分散I/O
  3. 另外每块儿可以在多台机器上存多个副本,提高可靠性,单台机器坏掉依然可以从其他机器找到完整的文件


map/reduce 在hdfs之上提供一个分布式的计算环境。这个概念来自于函数式编程。其实限制是很大的

  1. 要求计算任务能够被拆分成互不相干的、相同的小任务
  2. 面向行数据的处理,要求输入数据格式统一
  3. 必须把文件先上传到hdfs

幸运的是合乎要求1的情况也挺多的,很多时候可以把一些看上去不太符合要求的任务转个弯拧过来;在有使用hadoop意愿的前提下,预先做些工作,要求2也比较容易实现;第三条严重制约与网络带宽

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值