hadoop2.5.2文档:
http://hadoop.apache.org/docs/r2.5.2/
hadoop1.0中HDFS和Mapreduce在高可用性和扩展性方面存在问题
HDFS存在的问题:
- namenode单点故障,难以应用于再现场景
namenode压力过大,且内存受限,影响系统扩展
mapreduce存在的问题:
jobtracker访问压力大,影响系统扩展性
- 难以支持mapreduce之外的计算框架,如spark、storm
hadoop2.x有hdfs、mapreduce、yarn三个分支组成
- hdfs:NN federation、HA(高可用性)
- mapreduce:运行在yarn上的mr
- yarn:资源管理系统
hdfs2.x
解决1.0中单点故障和内存受限问题
解决单点故障,hdfs ha:通过主备namenode解决,如果namenode发生故障,则切换到备namenode上,同一时刻只有一个namenode运行
解决内存受限问题,hdfs federation(联邦),水品扩展,支持多个namenode,每个namenode分管一部分目录,所有namenode共享所有datanode存储资源
2.x只是结构上发生变化,使用方式不变
对hdfs使用者透明
hdfs1.x中的命令和API仍可以使用
使用zookeeper做HA,为用户提供二次开发接口