0910 hadoop完全分布式 HA 搭建 hdfs工作原理（读写模式）

最新推荐文章于 2022-09-17 22:55:38 发布

ruanmianmian1

最新推荐文章于 2022-09-17 22:55:38 发布

阅读量323

收藏

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ruanmianmian1/article/details/100710248

版权

1 完全分布式搭建 hdfs-site.xml中指定SNN的位置在slaves文件中配置DN的位置即可 4台机器配置文件一致通过配置文件上的指定来启动不同的jps

2 HA的搭建基于zk的zkfc的检测机制同时也是一种选举机制，主备间通过对journalnode的主->写备->读的模式保持主备一致性

zk对zkfc进行了心跳的检测在zk上有生成一个临时的主NN的文件，当主NN or 主zkfc挂掉临时文件删掉切换成备用的NN 备用NN 在zk上生成临时文件变成主机

HA的环境搭建需要在zk的基础上更改hadoop的配置文件即可具体见文档

hadoop-daemon.sh start 单节点启动 hadoop-daemon.sh start namenode hadoop-daemon.sh start journalnode

hdfs namenode -bootstrapStandy 同步两个namenode的元数据

zkServer.sh start/stop zk的启动关闭 zkCli.sh 链接到zk的客户端

3 hdfs 的写流程

文件在客户端先会被逻辑切割成每个128M的block块客户端先向NN发起请求申请空间审核等 NN完成后会返给block块的地址（包括备份的DN的地址）客户端通过输出流对DN简历链接会建立两个队列数据队列和确认队列每一个block块会再次切分成64K大小的包去传输，所有的包都会在数据队列和确认队列中数据队列中的会发给DN DN去完成备份的操作都完成了会返给确认队列确认队列删掉完成的数据然后会告知NN 和客户端完成每个block块都是如此当传输时DD挂了关闭管线把所有确认队列的包重新添加到数据队列中删除该管线上的错误节点给在正常DN上的block块指定一个新标志并传回NN 剩余两个DN正常传输当NN检测到会创建另一个副本完成传输任务

4 hdfs 的读流程

客户端去NN上请求block块地址是通过拓扑排序后的最新地址不断的读取block的数据 DD挂了的话会记住这个DN的地址之后会绕开DN 去其他副本上读取

5 SNN

SNN完成了定期镜像文件和日志文件的合并

合并检查时间点

1、默认情况下，SecondaryNameNode每个小时进行一次checkpoint合并

由dfs.namenode.checkpoint.period设置，单位秒

2、在不足一小时的情况下，如果edits log存储的事务达到了1000000个也进行一次checkpoint合并

由dfs.namenode.checkpoint.txns设置事务数量

3、事务数量检查默认每分钟进行一次

由dfs.namenode.checkpoint.check.period设置，单位秒。

ruanmianmian1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值