大数据学习05_Hadoop: HDFS工作机制

最新推荐文章于 2024-09-06 22:01:25 发布

ncepu_Chen

最新推荐文章于 2024-09-06 22:01:25 发布

阅读量192

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/ncepu_Chen/article/details/89504647

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

大数据学习05_Hadoop: HDFS工作机制

HDFS数据流
NameNode
- NN和2NN工作机制
DataNode

HDFS数据流

HDFS数据写入流程

在这里插入图片描述

节点距离计算

节点距离: 两个节点到达最近的共同祖先的距离总和
在这里插入图片描述
Distance(/d1/r1/n0, /d1/r1/n0)=0（同一节点上的进程）
Distance(/d1/r2/n0, /d1/r3/n2)=4（同一数据中心不同机架上的节点）
Distance(/d1/r1/n1, /d1/r1/n2)=2（同一机架上的不同节点）
Distance(/d1/r2/n1, /d2/r4/n1)=6（不同数据中心的节点）

副本存储节点选择

在这里插入图片描述
HDFS每个block默认存储三个副本
第一个副本在Client所处的节点上。如果客户端在集群外，随机选一个
第二个副本和第一个副本位于相同机架，随机节点
第三个副本位于不同机架，随机节点

HDFS数据读取流程

在这里插入图片描述

NameNode

NN和2NN工作机制

在这里插入图片描述

NameNode的元数据存储在内存上,同时在硬盘上的fsimage文件上存储元数据的备份.
元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits文件上.
引入一个新的节点SecondaryNamenode,专门用于fsimage文件和Edits文件的合并

DataNode

DataNode工作机制

在这里插入图片描述
掉线判定

其中heartbeat.recheck.interval和dfs.heartbeat.interval都可以在hdfs-site.xml中配置

新`DataNode`服役

克隆一台新主机,删除掉data和logs目录下的内容后再启动DataNode即可使新节点关联到NameNode下.
调用start-balancer.sh脚本可以均衡负载

旧`DataNode`退役

控制DataNode对NameNode的访问有两种方式:黑名单和白名单

白名单

白名单中的主机节点都被允许访问NameNode;不在白名单的主机节点,都会被强制退出集群.

在hadoop目录下的etc/hadoop目录下创建dfs.hosts文件,在文件中列出DataNode白名单
```
hadoop102
hadoop103
hadoop104
```

在etc/hadoop/hdfs-site.xml中添加如下属性,指定白名单文件的位置

<property>
	<!-- 指定白名单文件的位置 -->
	<name>dfs.hosts</name>
	<value>/opt/module/hadoop-2.7.7/etc/hadoop/dfs.hosts</value>
</property>

在shell中刷新NameNode,更新ResourceManager节点
```
hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes
```
刷新之后会发现不在白名单中的节点马上退出集群
均衡负载
```
start-balancer.sh
```

黑名单

黑名单上的主机都会被强制退出集群

在hadoop目录下的etc/hadoop目录下创建dfs.hosts.exclude文件,在文件中列出DataNode黑名单
```
hadoop105
```

在etc/hadoop/hdfs-site.xml中添加如下属性,指定黑名单文件的位置

<property>
	<name>dfs.hosts.exclude</name>
	<value>/opt/module/hadoop-2.7.7/etc/hadoop/dfs.hosts.exclude</value>
</property>

在shell中刷新NameNode,更新ResourceManager节点
```
hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes
```
刷新后会发现黑名单上的节点不会马上退出集群,而是将数据拷贝到其他节点之后才退出集群.

这里是引用

均衡负载
```
start-balancer.sh
```

ncepu_Chen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据学习05_Hadoop: HDFS工作机制

大数据学习05_Hadoop: HDFS工作机制

HDFS数据流

HDFS数据写入流程

节点距离计算

副本存储节点选择

HDFS数据读取流程

NameNode

NN和2NN工作机制

DataNode

DataNode工作机制

新DataNode服役

旧DataNode退役

白名单

黑名单

新`DataNode`服役

旧`DataNode`退役