大数据开发笔记（一）：HDFS介绍

GoAI

已于 2022-04-07 16:12:47 修改

阅读量3.3k

点赞数 6

分类专栏： # Hadoop相关大数据笔记文章标签：大数据 hadoop 分布式 hdfs mapreduce

于 2021-01-20 12:17:40 首次发布

本文链接：https://blog.csdn.net/qq_36816848/article/details/112862040

版权

大数据笔记同时被 2 个专栏收录

34 篇文章 24 订阅

订阅专栏

Hadoop相关

9 篇文章 8 订阅

订阅专栏

✨大数据开发笔记推荐：

大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍大数据hadoop生态圈各部分知识，包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术，总结内容适合大数据开发者学习，希望能够和大家多多交流。https://blog.csdn.net/qq_36816848/article/details/113767367💯本系列目录：

1️⃣大数据开发笔记（一）：HDFS介绍

2️⃣大数据开发笔记（二）：Yarn分布式集群操作系统

3️⃣大数据开发笔记（三）：Mapreduce

4️⃣大数据开发笔记（四）：Hive数据仓库

➡️大数据开发笔记（四）：Hive数据仓库

➡️大数据开发笔记（四）：Hive数仓调优

5️⃣大数据开发笔记（五）：Zookeeper

6️⃣大数据开发笔记（六）：Flume基础学习

7️⃣大数据开发笔记（七）：Kafka分布式流式处理

8️⃣大数据开发笔记（八）：Spark综合总结及Sparksql

9️⃣大数据开发笔记（九）：Flink基础

➡️大数据开发笔记（九）：Flink综合学习

🔟大数据开发笔记（十）：Hbase列存储数据库总结

➡️大数据开发笔记（十）：Hbase实践

一、HDFS介绍

1.HDFS概念：

📝总结：Hadoop由三部分组成：HDFS、分布式计算MapReduce和资源调度引擎Yarn。

HDFS 是一个分布式文件系统，负责文件存储。它的文件系统和平时看到的Linux很像，有目录结构，顶层目录是/，存放着文件，以及可以对文件进行增删，修改，移动等功能，不同的是它具有分布式的特点，hdfs的文件系统可以横跨多个机器，文件可能是存储在不同机器上的，但用户在使用时会被当作是存储在一台机器上。

2.Block块介绍：

在HDFS中有一个核心概念-block块。HDFS上的文件，是按照128M为单位，切分成一个个block的，分散的存储在集群的不同数据节点上。128M是指上限，实际可能block文件的大小不到128M。而为了保证数据的可用及容错，每一个block都可以设置副本数，默认是3，在集群搭建中，在hdfs-site.xml文件就可以设置默认副本数。每一个block的副本并不会存放在同一个服务器上面，而是分开存储在不同服务器，假如第一个block块暂时奔溃了，HDFS的主节点就会为了维持设置的block副本数，重新在其它服务器上创建一模一样的block1。

3.HDFS优缺点：

HDFS具有高可用、容错率高、可扩展的特点。

（1）HDFS的优点

高容错性

①：数据自动保存多个副本。它通过增加副本的形式，提高容错性

②：某一个副本丢失以后，它可以自动恢复

适合批处理即就近原则

①：移动计算而非非数据，数据位置暴露给计算机框架

②：本地化，数据不移动，代码（任务）移动。

适合处理大数据

①：数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据

②：文件规模：能够处理百万规模以上的文件数量，数量相当之大

可构建在廉价机器上，通过多副本机制，提高可靠性

（2）HDFS的缺点

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。寻址时间长，适合读取大文件，低延迟与高吞吐率。

不适合小文件存储

占用NameNode大量内存，寻找时间超过读取时间

不支持并发写入，文件随机修改

①：一个文件只能有一个写，不允许多个线程同时写

②：仅支持数据append（追加），不支持文件的修改

二、HDFS整体架构介绍

📝总结：HDFS的体系架构是典型的主从架构Master/Slave，有客户端和服务端，客服端通过Namenode主节点来访问存放在各个Datanode上的文件信息，Namenode负责管理每个子节点，同时还有secondaryNamenode做备份主节点。

1.HDFS结构介绍

1）Client：就是客户端。

（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；

（2）与NameNode交互，获取文件的位置信息；

（3）与DataNode交互，读取或者写入数据；

（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；

（5）Client可以通过一些命令来访问HDFS；

2）NameNode：就是Master，它是一个主管、管理者。

（1）管理HDFS的名称空间；namespace

（2）管理数据块（Block）映射信息；

（3）配置副本策略（默认）；3

（4）处理客户端读写请求。

3） DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。

（1）存储实际的数据块；

（2）执行数据块的读/写操作。

4） SecondaryNameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

（1）辅助NameNode，分担其工作量；

（2）定期合并Fsimage和Edits，并推送给NameNode；

（3）在紧急情况下，可辅助恢复NameNode。

针对上述组件形成以下工作机制：

在Namenode管理每个datanode过程中，有心跳机制能让namenade周期性地从集群中的每个datanode接受心跳信号和块状态报告，以便得知各集群节点是否正常运行，同时在hadoop集群刚启动时也会用到心跳机制，此时会先进入一个安全模式，等心跳确认99.9%的节点都正常后才进行正常工作，允许外界写入文件到HDFS。(此处心跳机制在下文详述)
HDFS有一个重要特性，那就是高可用，实现高可用最关键的是消除单点故障，会用到刚才体系架构中提到的SecondaryNamenode，概括来说就是当处于active状态的Namenode节点出问题后，他们之间有zookeeperFC会通知另一个暂时处于Standby状态的SecondaryNamenode准备替换工作，zookeeperFC是用来协调监控NameNode的，通知后原来的NameNode变成Standby状态，而SecondaryNamenode进行运行工作。
HDFS的联邦对应于HDFS的可拓展的特点，可以解决内存受限的问题，提高吞吐量和隔离不同类型的应用，但一般集群规模达到几千台的情况下才可能用到联邦（联邦，即支持多个namenode主节点，每个Namenode分管一部分的元数据目录，并共享所有datanode存储资源）。

2.HDFS的机制是指什么，它有什么作用？

 HDFS的机制是指它的心跳机制，我们知道HDFS是典型的Master/Slave主从架构，由一个Namenode管理多个Datanode过程中HDFS会用到它的心跳机制，其工作原理如下：

1.首先master启动的时候，会开一个icp server；
2.接着各个slave从节点启动时，连接上master，并且每隔3秒就向master发送一个icp server的”心跳“，携带状态信息；
3.然后master通过这个心跳的返回值，得知从节点的状态，并向从节点传达命令。

心跳机制的作用有三点：

（1）Namenode通过心跳机制全权管理数据，它周期性地从集群中的每个namenode接受心跳信号和块状态报告，有心跳意味着从节点工作正常，块状态报告中也会有该datanode上所有数据的列表。

（2）Datanode启动后向Namenode注册，并通过心跳上报数据块列表，3秒发送一次心跳，返回并执行Namenodede命令，如果10分钟都没有发送，代表这个Datanode出问题不可用。

（3）hadoop集群刚启动时会进入一个安全模式，这个安全模式也会用到心跳机制，只有Namenode得到99.9%datanode的反馈后安全模式才会解除。

三、HDFS文件的读写流程

（1）HDFS读流程

在获取文件名称后，运行在JVM虚拟机上的HDFS客户端，通过文件系统调用Namenode上的RPC方法（远程调用），让Namenode返回给客户端关于块的位置信息
客户端获得位置信息后，就通过FSDataInputStream找到不同DataNode节点建立连接并读取数据
数据源源不断的写入客户端，假设第一个block读取完成，就关闭指向该DataNode的连接，接着读下一个，以此类推。
在读取数据过程中，存储在datanode的block本身有一个crc32位的校验码，当读取给客户端时会重新生成一个crc校验码，并对比前后两次校验码，相等说明读取的跟存入的是同一个文件。

（2）HDFS写流程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。
在写入数据的过程中，底层会有一个data queue队列和ack queue队列，写入数据时，block块是按一个一个字节来将数据写入到一个名为chunk的小块（chunk中包含4byte的校验值），写满chunk后再放到一个package中，后续每个package要加入到data queue队列。
data queue中的package会逐步被发送到对应的datanode及其副本，同时还会复制一份写到ack queue队列中。待package写入完成后会重新生成校验值，这时拿新的校验值和ack queue中的package的校验值一一比对，如果比对成功，ack queue就删除对应package，如果比对不成功那么ack就把package发送回data queue再传输写入一次。

4.HDFS存储大量的小文件会发生什么问题？

首先Namenode存储着文件系统的元数据，元数据记录了文件、块、目录，大约占150字节大小。如果hdfs的小文件过多，那么会占用元数据中记录文件的内存，给Namenode造成压力，影响hadoop存储和访问的效率。

通常可以通过两种方法处理：

HAR文件方案：启动mr程序，通过hadoop archive命令将小文件压缩成一个har文件，适用于文件归档。

Sequence Files方案：还不太会用，暂不说明。

5.block块为什么设置比较大？是不是越大越好？

block的大小是由磁盘传输速度决定的，比如磁盘传输速度是200MB/S，block一般设定256MB。

如果block太大，那么从磁盘传输数据的时间会明显变慢，另一方面，mapreduce中的map任务一般一次处理一个block块，如果块过大，mr的处理速度也会变慢。如果block太小，那么就会跟hdfs存储大量小文件的问题一样，会给namenode造成内存的压力。

MapReduce分布式计算

1.MapReduce的shuffle过程是怎么样的？

MapReduce的shuffle过程实际上包含在map阶段和reduce阶段，也就是Map Shuffle和Reduce Shuffle；

Map Shuffle的过程是对map的结果进行分区排序，然后按照同一分区的输出合并一起写入到磁盘中，最终得到一个分区有序的文件。

大致流程是：

- 从map task输出的kv对数据会先写入到一个环形缓冲区，大小为100MB，但写满80%时就会溢出写入到磁盘文件；
- 在写入到磁盘文件的过程中，会对kv对进行HashPartition分区和排序，HashPartition是mr程序默认的分区方法，它会对kv对的key求hash值，然后对reduce的个数求模运算，最后得到的分区号作为分配给不同reduce的根据，分区后具有相同分区号的键值对存储在一起，每个分区里面的键值对又按key值进行排序。
- 接下来会判断是否需要combine压缩具有同一键的键值对数据
- 然后作为map输出准备传输给reduce

Reduce Shuffle过程中，是从reduce端通过网络传输向磁盘获取map输出开始，中间reduce shuffle也会把键相同的键值对数据放到一起，然后排序合并，最终形成一个整体有序的数据块，但这个过程是一直到调用reduce方法之前，也就是reduce shuffle并不包括调用reduce方法、

2.Combiner的作用

Combiner为了避免map task和reduce task之间的数据传输压力而设置的，它允许用户针对map task的输出指定一个合并函数，这个函数可以压缩具有同一key值的键值对，从而减少传输到reduce的数据量，减少网络带宽和reduce的负载。

但实际上combiner是作为可选项，有没有设置或者设置多少次都不会影响最终结果，在shuffle过程中会判断是否设置而进行压缩。

3.如何诊断是否有数据倾斜存在并处理？

数据倾斜有两种原因：

（1）某一个key对应的键值对数量要远远大于其它键的键值对数量；

（2）部分数据记录的大小远超过平均值。

可以在MR程序的reduce方法中追踪每个键的最大值，并且设置阈值，当超过该阈值时就可以认为发生了数据倾斜，可以输出到日志文件进行分析。
第二种是很对编写MR程序时，从业务层面去考虑自定义的分区键是否合理。就跟ADS库建表时可以默认指定哪个字段作为分区键。
MR程序中改用TotalOrderPartitioner替换HashPartitioner，它可以通过对原始数据进行抽样得到的结果集来预设分区边界值，也就是能找出导致数据倾斜的key

GoAI

关注

6
点赞
踩
31

收藏

觉得还不错? 一键收藏
打赏
2
评论
大数据开发笔记（一）：HDFS介绍

HDFS1.请介绍一下HDFS？ Hadoop由三部分组成：HDFS、分布式计算MapReduce和资源调度引擎Yarn。 HDFS 是一个分布式文件系统，负责文件存储。它的文件系统和平时看到的Linux很像，有目录结构，顶层目录是/，存放着文件，以及可以对文件进行增删，修改，移动等功能，不同的是它具有分布式的特点，hdfs的文件系统可以横跨多个机器，文件可能是存储在不同机器上的，但用户在使用时会被当作是存储在一台机器上。 HDFS具有高可用、容错率高、可扩展的特点。在HDFS
复制链接

扫一扫