Hadoop学习 day03

最新推荐文章于 2024-04-24 23:21:22 发布

沛沛酱

最新推荐文章于 2024-04-24 23:21:22 发布

阅读量105

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_49528461/article/details/108477108

版权

笔记专栏收录该内容

69 篇文章 0 订阅

订阅专栏

今天，继续学习了Hadoop。首先，先是复习了昨天学习过的内容，然后学习了IO流HDFS文件上传、IO流HDFS文件下载、IO流定位读取HDFS第一个块、IO流定位读取HDFS第二个块、数据的一致性、HDFS写数据流程、HDFS读数据流程、Namenode VS SName、镜像文件+日志文件、namenode版本、namenode数据还原实操、安全模式、Namenode多目录配置、DataNode工作机制、动态服役新数据节点、动态退役旧数据节点、Datanode多目录配置、DistCp-scp、Hadoop存档、快照管理。
总结一下：
1.HDFS写数据流程
剖析HDFS 文件写入流程：
1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。
2）namenode返回是否可以上传。
3）客户端请求第一个 block上传到哪几个datanode服务器上。
4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。
5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步）。
网络拓扑概念：
在本地网络中，两个节点被称为“彼此近邻”是什么意思？在海量数据处理中，其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。
节点距离：两个节点到达最近的共同祖先的距离总和。
2.HDFS读数据流程
1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。
2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。
3）datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做校验）。
4）客户端以packet为单位接收，先在本地缓存，然后写入目标文件。
3.NameNode工作机制
NameNode&Secondary NameNode工作机制：
1）第一阶段：namenode启动
（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
（2）客户端对元数据进行增删改的请求。
（3）namenode记录操作日志，更新滚动日志。
（4）namenode在内存中对数据进行增删改查。
2）第二阶段：Secondary NameNode工作（1）Secondary NameNode询问namenode是否需要checkpoint。直接带回namenode是否检查结果。
（2）Secondary NameNode请求执行checkpoint。
（3）namenode滚动正在写的edits日志。
（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
（6）生成新的镜像文件fsimage.chkpoint。（7）拷贝fsimage.chkpoint到namenode。（8）namenode将fsimage.chkpoint重新命名成fsimage。
3）web端访问SecondaryNameNode
（1）启动集群
（2）浏览器中输入：http://hadoop102:50090/status.html
（3）查看SecondaryNameNode信息
4）chkpoint检查时间参数设置
（1）通常情况下，SecondaryNameNode每隔一小时执行一次。
（2）一分钟检查一次操作次数，当操作次数达到1百万时，SecondaryNameNode执行一次。
4.namenode版本号具体解释
（1）namespaceID在HDFS上，会有多个Namenode，所以不同Namenode的namespaceID是不同的，分别管理一组blockpoolID。
（2）clusterID集群id，全局唯一。
（3）cTime属性标记了namenode存储系统的创建时间，对于刚刚格式化的存储系统，这个属性为0；但是在文件系统升级之后，该值会更新到新的时间戳。
（4）storageType属性说明该存储目录包含的是namenode的数据结构。
（5）blockpoolID：一个block pool id标识一个block pool，并且是跨集群的全局唯一。当一个新的Namespace被创建的时候（format过程的一部分）会创建并持久化一个唯一ID。在创建过程构建全局唯一的BlockPoolID比人为的配置更可靠一些。NN将BlockPoolID持久化到磁盘中，在后续的启动过程中，会再次load并使用。
（6）layoutVersion是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。
5.集群安全模式操作
概述：
Namenode启动时，首先将映像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件和一个空的编辑日志。此时，namenode开始监听datanode请求。但是此刻，namenode运行在安全模式，即namenode的文件系统对于客户端来说是只读的。
系统中的数据块的位置并不是由namenode维护的，而是以块列表的形式存储在datanode中。在系统的正常操作期间，namenode会在内存中保留所有块位置的映射信息。在安全模式下，各个datanode会向namenode发送最新的块列表信息，namenode了解到足够多的块位置信息之后，即可高效运行文件系统。
如果满足“最小副本条件”，namenode会在30秒钟之后就退出安全模式。所谓的最小副本条件指的是在整个文件系统中99.9%的块满足最小副本级别（默认值：dfs.replication.min=1）。在启动一个刚刚格式化的HDFS集群时，因为系统中还没有任何块，所以namenode不会进入安全模式。
基本语法：
集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。（1）bin/hdfs dfsadmin -safemode get （功能描述：查看安全模式状态）
（2）bin/hdfs dfsadmin -safemode enter （功能描述：进入安全模式状态）
（3）bin/hdfs dfsadmin -safemode leave （功能描述：离开安全模式状态）
（4）bin/hdfs dfsadmin -safemode wait （功能描述：等待安全模式状态）

沛沛酱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习 day03

今天，继续学习了Hadoop。首先，先是复习了昨天学习过的内容，然后学习了IO流HDFS文件上传、IO流HDFS文件下载、IO流定位读取HDFS第一个块、IO流定位读取HDFS第二个块、数据的一致性、HDFS写数据流程、HDFS读数据流程、Namenode VS SName、镜像文件+日志文件、namenode版本、namenode数据还原实操、安全模式、Namenode多目录配置、DataNode工作机制、动态服役新数据节点、动态退役旧数据节点、Datanode多目录配置、DistCp-scp、Hadoo
复制链接

扫一扫