一、环境准备
服务器四台:node5:192.168.13.135
node6:192.168.13.136
node7:192.168.13.137
node8:192.168.13.138
二、基本介绍
1. 分布式存储系统HDFS (Hadoop Distributed File System )
• 分布式存储系统
• 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务
2.HDFS优点:
– 高容错性
• 数据自动保存多个副本
• 副本丢失后,自动恢复
– 适合批处理
• 移动计算而非数据
• 数据位置暴露给计算框架
– 适合大数据处理
• GB 、TB 、甚至PB 级数据
• 百万规模以上的文件数量
• 10K+ 节点
– 可构建在廉价机器上
• 通过多副本提高可靠性
• 提供了容错和恢复 机制
3.HDFS缺点:
– 低延迟数据访问
• 比如毫秒级
• 低延迟与高吞吐率
– 小文件存取
• 占用NameNode 大量内存
• 寻道时间超过读取时间
– 并发写入、文件随机修改
• 一个文件只能有一个写者
• 仅支持append
三、节点介绍
1. NameNode(NN)
– NameNode主要功能:接受客户端的读写服务
– NameNode保存metadate信息包括