概述
HDFS基本思想
v 难以实现负载均衡
- 文件大小不一,负载均衡实现不易
- 用户自己控制文件大小,不大现实
v 并行化处理困难
- 只有一个节点资源处理一个文件
- 无法使用集群处理同一个文件
Hdfs的诞生
v 来自Google的GFS论文
- GFS发表与2003年
- HDFS相当于从理论上克隆GFS
v Hadoop Distributed File System
- 容易拓展的分布式文件系统
- 可运行在大量的廉价PC上,提供容错
- 性能保障
HDFS优势
v 高容错性
- 数据能自动保存多个副本
- 数据丢失后,自动恢复
v 适合批处理
- 能空余本地资源(CPU、内存)方便计算
- 数据位置暴漏给计算框架
v 适合大数据处理
- GB、TB、PB级数据量
- 百万规模的文件数量
- 上万节点规模应用
v 流式文件访问
- 一次写入多次读取
- 保证数据一致性
v 可构建在廉价的PC上
- 通过多个副本提高可靠性
- 提供了容错和恢复机制
但是
v 低延迟的数据访问
- 大数据下无法做到毫秒级
- 低延迟与高吞吐率之间平衡(Tachyon可提供搞吞吐率)
v 小文件存取
- 文件一次性过多会占用NameNode大量内存
- 寻址时间超过读取时间
v 并发写入,文件随机修改
- 一个文件只能由一个人写
- 只支持append
HDFS的高可用
v NameNode HA
- 基于NFS共享存储解决方案
- 基于Zookeeper解决方案
- 基于QJM解决方案
v NameNode Federation
- 多个NameNode分管一部分目录
- NameNode共用DataNode
HDFSFederation