B05 - 034、HDFS写数据流程

最新推荐文章于 2021-04-12 21:17:31 发布

会飞还得了

最新推荐文章于 2021-04-12 21:17:31 发布

阅读量197

点赞数

分类专栏： B02、BigData 文章标签： HDFS写数据流程

本文链接：https://blog.csdn.net/weixin_42464054/article/details/92760048

版权

B02、BigData 专栏收录该内容

271 篇文章 1 订阅

订阅专栏

初学耗时：0.5h

注：CSDN手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。

一、HDFS写数据流程

记忆词：

HDFS写数据流程

B05 - 999、大数据组件学习② - Hadoop

ギ舒适区ゾ || ♂ 累觉无爱 ♀

一、HDFS写数据流程

alt

client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；
client 请求第一个 block 该传输到哪些 DataNode 服务器上；
NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的 DataNode 的地址，如：A，B，C；
…
注：默认存储策略由 BlockPlacementPolicyDefault 类支持。也就是日常生活中提到最经典的 3 副本策略。
…
1st replica 如果写请求方所在机器是其中一个 datanode,则直接存放在本地,否则随机在集群中选择一个 datanode。
2nd replica 第二个副本存放于不同第一个副本的所在的机架。
3rd replica 第三个副本存放于第二个副本所在的机架,但是属于不同的节点。
client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline），A 收到请求会继续调用 B，然后 B 调用 C，将整个pipeline 建立完成，后逐级返回 client；
client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 packet 为单位（默认 64K），A 收到一个 packet 就会传给 B，B 传给 C；A 每传一个 packet 会放入一个应答队列等待应答。
数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在pipeline 反方向上，逐个发送 ack（命令正确应答），最终由 pipeline中第一个 DataNode 节点 A 将 pipeline ack 发送给 client;
当一个 block 传输完成之后，client 再次请求 NameNode 上传第二个block 到服务器。

冠盖满京华，斯人独憔悴。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

＾至此，HDFS写数据流程完成。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

※ 世间诱惑何其多，坚定始终不动摇。

SQL中，聚合函数COUNT（列名）用于：
…
A、计算元祖个数。
B、计算属性的个数。
C、计算一列中的非空值的个数。
D、计算一列中的非空值和空值的个数。
…
C

冠盖满京华，斯人独憔悴。

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

注：CSDN手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。

我知道我的不足，我也知道你的挑剔，但我就是我，不一样的烟火，谢谢你的指指点点，造就了我的点点滴滴：）！

冠盖满京华，斯人独憔悴。

会飞还得了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
B05 - 034、HDFS写数据流程

0、HDFS写数据流程初学耗时：0.5h注：CSDN手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。一、HDFS写数据流程记忆词： HDFS写数据流程ギ舒适区ゾ || ♂ 累觉无爱 ♀ 一、HDFS写数据流程client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode检查目标文件是否已存在，父目录是...
复制链接

扫一扫