Hadoop
hadoop官网:
http://hadoop.apache.org/
Hadoop的思想之源:Google
面对的数据和计算难题
大量的网页怎么存储
搜索算法
带给我们的关键技术和思想
GFS
Map-Reduce
Hadoop创始人介绍
Hadoop作者Doug cutting,
就职Yahoo期间开发了Hadoop项目,
目前在Cloudera 公司从事架构工作
Hadoop简介
名字来源于Doug Cutting儿子的玩具大象
1> 2003~2004年,Google公开了部分GFS和MapReduce思想的细节,
以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,一个微缩版:Nutch
2> Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,MapReduce
和Nutch Distributed File System(NDFS)分别被纳入成为Hadoop的项目中
分布式存储系统HDFS(Hadoop Distriuted File System)
分布式存储系统
提供了高可靠性、高拓展性和高吞吐率的数据存储服务
分布式计算框架MapReduce
分布式计算框架
具有已与编程、高容错性和高拓展性等优点
HDFS优点:
1> 高容错性:
数据自动保存多个副本
副本丢失后,自动恢复
2> 适合批处理:
移动计算而非数据
数据位子暴露给计算框架
3> 适合大数据处理:
GB、TB、甚至PB级数据
百万规模以上的文件数量
10K+ 节点
4> 可构建在廉价机器上:
通过多副本提供可靠性
提供了容错和恢复机制
HDFS缺点:
1> 低延时数据访问
比如毫秒级
低延时与高吞吐率
2> 小文件存取
占用NameNode大量内存
寻道时间超过读取时间
3> 并发写入、文件随机修改
一个文件只能有一个写者
仅支持append
HDFS架构