HDFS 客户端与节点间读写与checkpoint流程图总结

最新推荐文章于 2024-07-03 14:44:32 发布

一切如来心秘密

最新推荐文章于 2024-07-03 14:44:32 发布

阅读量558

点赞数 2

分类专栏：大数据文章标签： HDFS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42586468/article/details/118176103

版权

大数据专栏收录该内容

34 篇文章 4 订阅

订阅专栏

文章目录

HDFS写数据流程图

客户端会根据配置文件将需要写入的文件切分为多个block, 例如将 jdk.tar.gz 切分为 block1 和 block2

客户端首先向NN发送写数据的请求，当请求同意后，客户端会向NN发送请求写入block1，NN会告知客户端block1将被写入哪些DN（DN1, DN2, DN3）
然后客户端会找将写入的第一个DN建立数据传输的连接，然后第一个DN再与第二个将要写入的DN建立连接，第二个DN在与第三个DN建立连接。

当所有需要写入的DN连接都建立后，第一个DN会告知客户端连接已建立

当所有连接都建立成功后，客户端向第一个DN传输block1数据，然后DN1会拷贝副本至DN2，DN3
block2 的传输过程与block1的传输过程一样

HDFS读数据流程图

客户端首先向NN发送读数据请求，然后NN告知客户端文件的元数据信息
客户端拿到元数据后，向DN1发送读取block1的数据请求， DN1将block1的数据流返回

向DN2发送读取block2的数据请求， DN2将block2的数据流返回
在这里插入图片描述

HDFS 元数据管理与checkpoint

元数据

HDFS的目录结构以及每个文件的BLOCK信息（id, 副本系数, block存放位置）

**元数据信息存放位置 **

元数据存放在hdfs-site.xml配置文件配置的目录下 ${hadoop.tmp.dir}/dfs/namesecondary/current的fsimage_*文件中。

NN 元数据操作

元数据信息由NN管理，当操作dfs上的文件时，NN会以树形结构在内存中将元信息实时记录下来。

NN会定时将内存中的元信息序列化为fsimage文件。

为了防止宕机造成内存元信息丢失，NN会记录序列化时间段内对HDFS相关的操作指令，生成edits日志文件。

合并fsimage与edits文

NN会生成多个时间点的fsimage与edits文件，并且会定期将某个时间点的fsimage与edits记录的操作合并生成一个新的fsimage, 然后替换该时间点的fsimage。

反序列化fsimage 与 edits文件

合并fsimage 与edits文件需要先将文件反序列化为树形结构，生成一个新的树形结构，然后在序列化为新的fsimage。该过程涉及大量IO操作，为了不影响NN的性能，因此有了secondary NN 来进行合并操作。

checkpoint

合并fsimage与edits文件生成新的fsimage文件称为checkpoint。
在这里插入图片描述

一切如来心秘密

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

一切如来心秘密

博客等级

码龄6年

195
原创

1862
点赞

1969
收藏

1257
粉丝

关注

私信

热门文章

分类专栏

最新评论

Apache Paimon 流式湖仓介绍说明
黑眼圈@~@: 你们在ods层就开始join做大宽表了？是实时做的么？你们是关联多少张表呀。量级是多少呢。我这边是在dwd层关联做大宽表的，但是实时计算中，lookupjoin超过3张千万数据量的paimon-ods表。就开始不行了。你们那边有遇到这样的情况嘛？
容器部署的neo4j 数据dump文件导入方案
挽风霞: command failed: Not a valid Neo4j archive: /var/lib/neo4j/import/neo4j.dump
Apache Paimon 流式湖仓介绍说明
一切如来心秘密: 在补充一下，因为我们的ods 层是湖数据，存储使用的是oss, 存储相较于hive 的HDFS 是非常廉价的，因此我们在ods 层的时候就可以将需要join的数据做成大宽表，减少join。
Apache Paimon 流式湖仓介绍说明
一切如来心秘密: 对可以理解为作为ods层采集，之后的分析查询都是在 ck 中建模，ck 对于join 查询支持也不是特别好，尽量减少join 操作，对于一些可能多张表都会用到的纬度指标等数据可以单独做成字典表，这样在查询的时候就可以不用join 关联字典表查询。我们不直接使用flink SQL 查询分析，将它作为下游表创建的实时任务 SQL, 对于adhoc 和报表查询都是使用的 ck SQL。
Apache Paimon 流式湖仓介绍说明
黑眼圈@~@: 等于说只是做了ods采集，dwd层之后的实时数仓都是在CK上存储？你们flink sql 做 lookup join 是关联的 paimon表?ck表？还是hbase表？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一切如来心秘密 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。