关于HDFS

Jinandawang

已于 2023-03-26 08:34:11 修改

阅读量322

点赞数

分类专栏： # Hadoop生态文章标签： hdfs hadoop 大数据

于 2023-02-18 22:32:05 首次发布

本文链接：https://blog.csdn.net/Jinandawang/article/details/128953718

版权

一、HDFS概述

二、HDFS架构与工作机制

官方文档Apache Hadoop 3.3.4 – HDFS Architecture

组成部分（基于master/slave策略）

NameNode和SecondaryNameNode的工作机制

DataNode的工作机制

HDFS的写流程

HDFS的读流程

网络拓扑-节点距离计算 & 机架感知（副本位置的选择）

数据完整性

三、HDFS的Shell操作

四、Hdfs的API操作

一、HDFS概述

HDFS：Hadoop Distributed File System；一种分布式文件管理系统，通过目录树定位文件。
使用场景：一次写入，多次读出，且不支持文件的修改。适用于数据分析，不适用于网盘应用；
优点：
1. 高容错：多个副本，其中一个副本丢失，可以自动恢复；
2. 适合处理大数据：数据规模大 & 文件规模大 & 可以构建于廉价机器上。
缺点：
1. 不适合低延时数据访问；
2. 无法高效的对大量小文件进行存储；
3. 不支持并发写同一个文件，仅支持追加，不支持文件的随机修改。

二、HDFS架构与工作机制

官方文档
Apache Hadoop 3.3.4 – HDFS Architecture
组成部分（基于master/slave策略）
1. NameNode（master）：即Master，管理HDFS名称空间、副本策略、Block映射信息、处理客户端读写请求。
2. DataNode（slave）：即Slaver，存储实际的数据块，执行NN下达的读写操作。
3. Secondary NameNode（SNN）：不是NN的热备份（热备份是指在程序还在运行的时候对数据进行备份）SNN对于NN的作用不同于平常的热备份的概念，SNN包含Fsimage和Edits，会定期合并Fsimage和Edits并推送给NN。紧急情况下可辅助恢复NameNode。
4. Client：客户端，交互与访问。
5. Block（hdfs文件块）
  1. Hadoop1.x中是64M，在Hadoop2.x-3.x中是128M；
  2. 块的大小既不能太大，也不能太小；（块大小的设置取决于磁盘传输的速率）；
NameNode和SecondaryNameNode的工作机制
1. NameNode启动
  1. 第一次启动NN，需要创建命名空间镜像文件（fsimage）和编辑日志文件（edits）（如果NN不是第一次启动，直接加载fsimage文件和edits文件到内存）；
  2. NN记录操作日志，滚动日志；
  3. NN在内存中对元数据进行修改操作。
2. SecondaryNameNode工作过程
  1. SNN询问NN是否需要CheckPoint（是否需要合并fsimage和edits），一般记录条数超过100w条或者时间超过3600s，Snn提醒NN进行CheckPoint。
  2. Secondary NameNode请求执行CheckPoint。
  3. NameNode滚动正在写的Edits日志（edit_inprogress滚动生成edit文件）。将滚动前的编辑日志和镜像文件拷贝到SNN，SNN加载编辑日志和镜像文件到内存进行合并，生成新的镜像文件fsimage.chkpoint。
  4. 拷贝fsimage.chkpoint到NameNode，NameNode将fsimage.chkpoint重新命名成fsimage。
DataNode的工作机制
1. 一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据（包括数据块的长度，块数据的校验和，以及时间戳）。
2. DataNode启动后向NameNode注册，通过后，周期性（6小时）地向NameNode上报所有的块信息。
3. 心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。