HDFS是什么?
Hadoop Distributed File System,它是一种分布式文件存储系统,主要解决大数据的存储问题。
HDFS的优缺点:
优点:
- 适合大数据处理
- 适合批处理
- 百万规模以上的文件数量:10K+ 节点
- 可以构建在廉价的机器上
- 高可靠性:通过多副本提高安全可靠性
- 高容错性:数据自动保存多个副本;副本丢失后,自动恢复,提供了恢复机制
缺点:
- 低延迟高数据吞吐访问问题:不支持毫秒级
- 小文件存取占用NameNode大量内存,不适合存储大量的小文件
- 不支持文件修改:一个文件只能有一个写者,仅支持append不支持修改(其实append也算是修改)
HDFS的主要角色
NameNode(简称NN):是hdfs的核心节点,最重要
主要功能是:接收客户端的读写请求,接收DataNode发送的block位置信息,保存metadata元数据信息。
hadoop1.x中只有一个NameNode,2.x中有两个NN分别作为主备用以解决主从架构中的单点故障问题
SecondaryNameNode(简称SNN):只有hadoop1.x中存在,它负责拉取NN节点上的edits+fsimage文件合并,落地到磁盘形成fsimage.减少NN启动时间,它不是NN的