[笔记迁移][Hadoop][2]HDFS原理

最新推荐文章于 2024-07-15 19:00:06 发布

Bro_Rabbit

最新推荐文章于 2024-07-15 19:00:06 发布

阅读量173

点赞数

分类专栏： bigdata 文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/weixin_38240095/article/details/82987624

版权

26 篇文章 0 订阅

订阅专栏

1. 基本原理引入：以写操作为例

Put in hdfs

*防裂说明*：

Client从字节流中仅按配置文件切块，不做其他任何改动（实际传输过程中，一个Block被切分为多个Packet，到达目标位置是再“拼装”为Block）；
Client写入blk_x的第一份副本给某个 DataNode后，继续写blk_x+1的第一份副本给某个DataNode，blk_x的n份副本由第一份副本所在DataNode拷贝（pipe_cp）给其他DataNode（DataNode串联形成一条Pipeline），整个过程是异步进行的；
存储小文件降低性能，主要原因为：
- 不会浪费DataNode，因为默认情况下一个Block=128MB，小于128MB的文件同样占用一个Block；
- 但会浪费NameNode，因为元数据meta的存储空间是有限的（也就决定了格式化的meta项数是一定的[类似CPU地址线决定存储单元的个数]）
- 整个FS的理论存储容量=meta的项数*Block大小

2. HDFS副本Replicas放置策略：

(1) 一条meta元数据记录：

(2) 写入put时的meta变化

Meta move

(3)读取get直接通过内存中元数据meta进行操作。内存中的元数据meta实时更新，总是最新的。

(4) meta元数据合并——持久化

CheckPoint

什么时候CheckPoint?

目前机制的问题：

CheckPoint之前，NameNode宕机，meta可以通过fsimage+edits_log恢复，但是截止到恢复Service不能正常提供。

解决方案：

双NameNode -> HA

*总结：NameNode主要职责

4. DataNode--真实数据存储

*总结：DataNode的主要职责

关注