大数据之HDFS概述

最新推荐文章于 2023-03-23 08:44:18 发布

冂阿吉

最新推荐文章于 2023-03-23 08:44:18 发布

阅读量149

点赞数

文章标签： hadoop hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42829835/article/details/109048754

版权

HDFS的概述与特性

介绍

Hadoop Distributed File System 是一个文件系统，用于存储文件，通过目录树来定位文件，其次，它是分布式的，有很多服务器联合起来实现其功能，集群中的服务器有各自的角色
适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析，并不适合来做网盘应用
优点：高容错性、适合处理大数据、可构建在廉价机器上，通过多副本机制，提高可靠性。
缺点：不适合低延时数据访问、无法高效的对大量小文件进行存储、不支持并发写入、文件随机修改
文件快大小：默认集群环境下在Hadoop1.x是64M、Hadoop2.x是128M，本地为32M
- 快设置太小，会增加寻址时间
- 快设置太大，从磁盘传输数据时间会大于定位这个快开始位置所需的时间
- 总结HDFS快的大小设置主要取决与磁盘传输速率

组成

NameNode：就是Master，它是一个主管、管理者
- 管理HDFS的名称空间
- 设置副本策略
- 管理数据块映射信息
- 处理客户端读写请求
DataNode：就是Slave，NameNode下达命令，DataNode执行实际的操作
- 存储实际的数据块
- 执行数据块的读写操作
Client：客户端
- 文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，上传
- 与NameNode交互。获取文件的位置信息
- 与DataNode交互，读写数据
- Client提供一些命令来管理HDFS（增删改查）
SecondNameNode：并非NameNode的热备，当NameNode挂掉的时候，它不能马上替换NameNode并提供服务
- 辅助NameNode，分担其工作量，定期合并Fsimages和Edits，并推送给NameNode
- 在紧急情况下，可辅助恢复NameNode

数据流操作

数据写入

在这里插入图片描述

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
NameNode返回是否可以上传。
客户端请求第一个 Block上传到哪几个DataNode服务器上。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

数据读取

在这里插入图片描述

客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

NN和2NN工作机制

在这里插入图片描述

产生在磁盘中备份元数据的FsImage。
引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。
引入一个新的节点SecondaryNamenode，专门用于FsImage和Edits的合并。

第一阶段：NameNode启动

第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
客户端对元数据进行增删改的请求。
NameNode记录操作日志，更新滚动日志。
NameNode在内存中对数据进行增删改。

第二阶段：Secondary NameNode工作

Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。
Secondary NameNode请求执行CheckPoint。
NameNode滚动正在写的Edits日志。
将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
生成新的镜像文件fsimage.chkpoint。
拷贝fsimage.chkpoint到NameNode。
NameNode将fsimage.chkpoint重新命名成fsimage。

Fsimage与Edits解析

Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所以目录和文件inode的序列化信息
Edits文件：存放HDFS文件系统的所有更新操作路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。
seen_txid文件保存的是最后一个edits的数字
每次NameNode启动的时候都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中的元数据是最新的、同步的，可以看成NameNode启动的时候将Fsimage和Edits文件进行合并

DataNode工作机制

在这里插入图片描述

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

HDFS的一些特型

校验数据的完整性
掉线时限参数设置：DataNode挂掉时NameNode检测恢复
服役新数据节点：增加服务器
退役旧数据节点
- 添加白名单添加到白名单的主机节点，都允许访问NameNode，不在白名单的主机节点，都会被退出。
- 黑名单退役在黑名单上面的主机都会被强制退出。
多目录配置：DataNode也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本
HDFS2.x新特性
- 集群间数据拷贝
- 小文件存档
- 回收站
- 快照管理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据之HDFS概述

HDFS的概述与特性介绍Hadoop Distributed File System 是一个文件系统，用于存储文件，通过目录树来定位文件，其次，它是分布式的，有很多服务器联合起来实现其功能，集群中的服务器有各自的角色适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析，并不适合来做网盘应用优点：高容错性、适合处理大数据、可构建在廉价机器上，通过多副本机制，提高可靠性。缺点：不适合低延时数据访问、无法高效的对大量小文件进行存储、不支持并发写入、文件随机修改文件快大小：默认集群环境
复制链接

扫一扫

冂阿吉 CSDN认证博客专家 CSDN认证企业博客

码龄6年

50: 原创

42万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

654: 积分

57: 粉丝

79: 获赞

21: 评论

88: 收藏

私信

关注

热门文章

分类专栏

Android 2篇
mybatisplus 1篇
运维 1篇
JEECG 1篇

最新评论

Arthas 排查工具
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
JEECG-BOOT-前端项目-路由菜单动态生成
冂阿吉: 通过generateIndexRouter()指定返回的数据格式，不过不建议这样子实现。动态路由就是为了通过权限进行资源（菜单、操作code登）区分
JEECG-BOOT-前端项目-路由菜单动态生成
weixin_57120086: 请问jeecg可以改用自己的静态路由吗
JVM运行时数据区与JVM指令集
大家一起学编程（python）: 遇到好文章，我就是要评论，嘿，就是玩
JMM规范与对象结构
编程界小明哥: 写的详细易懂，博主用心了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。