HDFS的简单介绍，体系结构和数据流

最新推荐文章于 2021-11-26 09:00:48 发布

daladalabao

最新推荐文章于 2021-11-26 09:00:48 发布

阅读量254

点赞数 1

分类专栏： hadoop 文章标签： hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/qq_45450889/article/details/111183174

版权

23 篇文章 1 订阅

订阅专栏

主控节点NameNode和从控系节点DataNode
HDFS集群有两类节点，并以管理者-工作者模式运行，即一个NameNode（管理者）和多个DataNode（工作者）
- NameNode：
  - 保存文件系统的3种元数据
    1. 命名空间
    2. 数据块与文件名的映射
    3. 每个数据块副本的位置细信息，每个数据块默认有3个副本
  - 可以执行文件操作（打开、关闭、重命名），负责向DataNode分配数据块并建立数据块和DataNode的对应关系
- DataNode：用来实际存储和管理文件的数据块
- 负责处理文件系统用户具体的数据读写请求，同时也处理NameNode对数据块的创建和删除副本的指令
文件块大小：为了提高硬盘的效率，文件系统中最小的读写为单位不是字节，而是一种数据块（Block）
- Hadoop2.x中，HDFS文件每个数据块默认的大小是128MB；同时为了防止数据丢失，每个数据块默认有3个副本，且3个副本会分别复制在不同的节点上，以避免因一个节点失效造成一个数据块的彻底丢失
- Hadoop1.x : 64MB
- 在hdfs.site.xml文件中通过配置项dfs.replication来设置每个HDFS块在Hadoop集群中保存的的份数，值越大，冗余性越好，占用存储也越，默认值是3，也就是说有2份冗余
心跳
Client

读数据流程
1. 使用HDFS提供的客户端开发库Client，向远程的NameNode发起请求
2. NameNode 会视情况返回文件的部分或者全部Block列表，对于每个Block，NameNode都会返回由该Block复制的DataNode地址
3. Client会选取离客户端最近的DataNode来读取Block，如果客户端本身就是DataNode，那就直接从本地直接获取数据
4. 读取完当前的Block的数据后，关闭和当前的DataNode的连接，为下一个Block寻找最佳的DataNode
5. 读完列表的Block后，并且文件读取还没有结束，Client会继续通知NameNode获取下一批的Block列表
6. 读取完一个Block会进行checksum验证，如果读取DataNode时出现错误，客户端会通知NameNode，然后再从下一个拥有该BlocfuzhideDataNode地址继续读
写数据流程
1. 使用HDFS提供的客户端开发库Client，向远程的RPC发起请求
2. NameNode会检查要创建的文件是否已经存在，创建者是否有权限进行该操作，检查成功则会为文件常见一个记录，失败就让客户端抛出异常
3. 当客户端开始写入文件时，会将文件切分成多个packet，并在内部以数据队列的形式管理这些packet，并且向NameNode申请新的Block，获取用来存储replicas合适的DataNode列表，列表的大小根据NameNode中队replication的设置而定

在这里插入图片描述

在这里插入图片描述

关注