Guo某的大数据学习之路-第三天

最新推荐文章于 2022-10-26 14:52:34 发布

世界上怎么可能没有迪迦

最新推荐文章于 2022-10-26 14:52:34 发布

阅读量217

点赞数 4

分类专栏：大数据

本文链接：https://blog.csdn.net/guoxiang1030_/article/details/102905649

版权

大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

DataNode作用

1、执行数据的读写（响应的是客户端）
2、周期性向NameNode做汇报（数据块的信息、校验和）
若datanode 10分钟没有向NameNode做汇报，表示已丢失（已宕机）
心跳周期 3秒 3、执行流水线的复制（一点一点复制）
在这里插入图片描述

机架感知

实际上需要工程师收到创建一个脚本（python sh ）,脚本中记录主机IP和交换机的对应关系。
配置的位置是core-site.xml 最终添加如下配置
topology.script.file.name
/home/bigdata/apps/hadoop/etc/hadoop/RackAware.py

RPC 指的是远程过程调用。是集群中多个组件、多个模块进行数据通信的一
种方式。

HDFS数据写入流程(重点)

在这里插入图片描述
1.client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；
2.client请求第一个block该传输到哪些DataNode服务器上；
3.NameNode根据配置文件中指定的备份数据及机架感知原理进行文件分配，返回可用的DataNode的地址如：A,B,C；
4.client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用，建立pipeline)，A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，后逐级返回client；
5.client开始往A上传第一个block（先从磁盘读取数据放到一个本地内容缓存），一packet为单位（默认64k），A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。
6.数据被分割成一个个packet数据包在pipeline上一次传输，在pipeline反方向上，逐个发送ack（命令正确应答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client；
7.关闭写入流
8.当一个block传输完成之后，client再次请求NameNode上传第二个block到服务器。

HDFS数据读取流程（重点）

在这里插入图片描述
1.客户端通过调用FileSystem对象的open()来读取希望打开的文件；
2.client向NameNode发起RPC请求，来确定请求文件block所在的位置；
3.NameNode会视情况返回文件的部分或者全部block流标，对于每个block，NameNode都会返回含有该block副本的DataNode地址；这些返回的DN地址，会按照集群拓扑结果得出DataNode与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离Client近的排靠前；心跳机制中超时汇报的DN状态为STALE，这样的排靠后；
4.Client选取排序靠前的DataNode来读取block，如果客户端本身就是DataNode，那么将从本地直接获取数据（短路读取特性）；
5.底层上本质是建立Socket Stream（FSDataInputStream），重复的调用父类DataInputStream的read方法，直到这个块上的数据读取完毕；
6.并行读取，若失败重新读取；
7.当读完列表的block后，若文件读取还没有结束，客户端会继续向NameNode获取下一批的block列表；
8.返回后续block列表；
9.最终关闭读流，并将读取来所有的block会合并成一个完整的最终文件。

HDFS数据完整性

在这里插入图片描述
数据在写入之后进行校验和的计算，DataNode周期性进行校验和计算，将计算结果与第一次的结果进行对比。若相同表示无数据丢失，若不相同表示数据有丢失，丢失进行数据恢复。
数据读取之前对数据进行校验，与对此的结果进行对比。若相同表示数据没有丢失，可以读取，若不相同表示数据有所丢失，到其他副本读取。

HDFS使用场景

一次写入，多次读出的场景，支持数据在文件尾追加，不支持在文件中间追加或修改。

世界上怎么可能没有迪迦

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Guo某的大数据学习之路-第三天

DataNode作用1、执行数据的读写（响应的是客户端）2、周期性向NameNode做汇报（数据块的信息、校验和）若datanode 10分钟没有向NameNode做汇报，表示已丢失（已宕机）心跳周期 3秒 3、执行流水线的复制（一点一点复制）机架感知实际上需要工程师收到创建一个脚本（python sh ）,脚本中记录主机IP和交换机的对应关系。配置的位置是core-site.xm...
复制链接

扫一扫