hadoop版本、hdfs组成架构、hdfs文件块、优缺点、读写文件流程

最新推荐文章于 2024-05-13 20:51:18 发布

qzc_root

最新推荐文章于 2024-05-13 20:51:18 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/qzc_root/article/details/115006400

版权

Hadoop 三大发行版本

1.Apache Hadoop
官网地址：http://hadoop.apache.org/releases.html
下载地址：https://archive.apache.org/dist/hadoop/common/
2.Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址：http://archive.cloudera.com/cdh5/cdh/5/
3.Hortonworks Hadoop
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform

Hadoop 组成（面试重点）

Hadoop1.x 和 Hadoop2.x 在架构上有很大的区别。
Hadoop1.x 主要由 HDFS 和 MapReduce 构成
Hadoop2.x 主要由 HDFS、YARN、MapReduce 构成
在 Hadoop1.x 时代，Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源的调度，耦合性较大。还有一个比较大的问题是 Hadoop1.x 只能运行 MapReduce程序。
在 Hadoop2.x 时代，分离了 MapReduce 部分功能，将资源调度和运算分开，增加了 Yarn。Yarn 只负责资源的调度，MapReduce 只负责运算。而且 Yarn 不仅仅能运行 MapReduce 程序，还可以运行后面会学习的 Spark 应用程序。可以说Yarn 目前发展成为一个通用的资源调度框架。很多计算框架都支持在 Yarn 上运行。

Hadoop 分布式文件系统-HDFS

HDFS 架构
架构这一块是 HDFS 部分比较难理解的，需要重复讲解。可以过两遍，要求
学员分清楚并记住 HDFS 架构中每一个组件的功能。
HDFS 设计思想
随着数据量越来越大，在一个操作系统磁盘空间肯定存不下了，那么就需要
分配到更多的操作系统管理的磁盘中，也就是常说的分布式存储-集群多机器存储。但是涉及多个机器存储，就不方便管理和维护。HDFS 就是一个很好的分布式文件管理系统。它使用多台机器（一般是 Linux）机器上的特定磁盘空间作为文件系统的存储空间，相当于整合了多台机器的存储空间为自己所用。扩大了存储空间。对于文件来说，HDFS 也作出了一些特有的设计方式。它将每一个文件切分成多个块进行存储，将切分后的块分散存储到多台机器上，Hadoop2.x 版本中默认块大小是 128MB。比如一个文件大小 300MB，那么在 HDFS 中，会被切分成三个数据块（128MB，128MB，44MB），三个块都是独立的，它们会被存储在不同的机器上。这样做的好处就是不会有超大文件的影响，最大的块只有128MB，对机器性能要求不高，可以部署在廉价的机器上。
从上面的设计中，可以看出 HDFS 至少要提供以下几项功能：
1、要将文件进行切分。
2、一个文件被切分后，被分成多少块，每个块存储在哪些机器上，这些都
是需要记录的，不然，文件存进去了，不能查出来。
3、数据丢失的问题，HDFS 可以部署在廉价的机器上，那就会存在某个机器
损坏，导致数据丢失，也就是说 HDFS 还得提供容错功能。HDFS 采用的
是副本机制，对切分后的文件块进行备份。
副本数默认为3
存放机制：
一个在本地机架节点
一个在同一个机架不同节点
一个在不同机架的节点
针对上面的设计思想和需要解决的功能，引出 HDFS 的架构。

HDFS 组成架构（面试重难点）

在这里插入图片描述
从上面的图中可以分析到，架构主要由四个部分组成，分别为 HDFS Client、NameNode、DataNode 和 Secondary NameNode。下面我们分别介绍这四个组成部分。其实结合前面安装环境启动的进程说明，HDSF 启动的时候有 NameNode、DataNode 和 Secondary NameNode 进程。
1.Client：就是客户端，自己编写的代码+Hadoop API。其主要功能：
（1）进行文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。
（2）当我们要查询一个文件时，与 NameNode 交互，获取文件的位置信息。
（3）与 DataNode 交互，读取或者写入数据。
（4）Client 提供一些命令来管理 HDFS，比如启动或者关闭 HDFS。（5）Client 可以通过一些命令来访问 HDFS。
2.NameNode：就是 Master，它是一个主管、管理者。也叫 HDFS 的元数据
节点。集群中只能有一个活动的 NameNode 对外提供服务。
（1）管理 HDFS 的名称空间（文件目录树）；HDFS 很方便的一点就是对于用户来说很友好，用户不考虑细节的话，看到的目录结构和我们使用 Window 和Linux 文件系统很像。
（2）管理数据块（Block）映射信息及副本信息；一个文件对应的块的名字
以及块被存储在哪里，以及每一个文件备份多少都是由 NameNode 来管理。
（3）处理客户端读写请求。
3.DataNode：就是 Slave。实际存储数据块的节点，NameNode 下达命令，
DataNode 执行实际的操作。
（1）存储实际的数据块。
（2）执行数据块的读/写操作。这一块后面读写流程会详细介绍。
4.Secondary NameNode：并非 NameNode 的热备。当 NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。它的功能如下：
（1）辅助 NameNode，分担其工作量。
（2）定期合并 Fsimage 和 Edits，并推送给 NameNode。
（3）在紧急情况下，可辅助恢复 NameNode。Secondary NameNode 的工作与 HDFS 设计是相关的，主要针对元数据设计的。它维护了两种文件 Fsimage 和 Edits，Fsimage 镜像文件，是元数据在某个时间段的快照，Edits 记录了生成快照之后的一些列操作。HDFS 在最初格式化启动时，
创建 Edits 和 Fsimage 文件，并在内存中维护一版元数据信息，这时候，Fsimage和内存中的元数据信息是相同的。后续每一次客户端操作时，会先记录客户端执行的操作，这个操作是记录 Edits 在文件中的，然后再更新内存中对应的目录树结构，比如用户删除一个文件，会先在 Edits 文件中记录一个 delete 操作，然后在内存中真正删除改文件。也就是说，内存中的元数据信息是完整的。前面生成的快照 Fsimage 只是元数据的一部分，执行完 Edits 文件中相关操作才能与内存中元数据相同。
为什么要这么设计呢？
首先，为什么不直接更新 Fsimage，而是要新添加 Edits 文件。这里就需要明确Fsimage里面存的是元数据目录树信息，其实是一个内存对象序列化后的内容。要更新这个文件，首先得反序列化对象加载到内存中，在实际工作，这个文件是很大，序列化和反序列化过程会很繁重，速度会很慢。而 Edits 文件只需要 append操作记录即可。这样既保证了元数据不会丢失，也提高了性能。
SecondaryNameNode 具体干什么事情？
当 HDFS 运行一段时间后，需要重启动时，需要将 Fsimage 加载到内存中，并把 Eidts 文件中的操作执行一遍，才是完整的元数据信息。假如操作记录比较频繁或者长时间没有重启过，Edits 文件会很大。重启的时候合并Fsimage+Edits文件的操作也是很耗时的，增加了启动时间。SecondaryNameNode 就是解决这种问题的，它是一个独立的进程，定期（满足一定条件）会将 Fsimage+Edits 合并成一个新的 Fsimage，减少 HDFS 重启时间。

HDFS 文件块大小

HDFS 中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在 Hadoop2.x 版本中是 128M，Hadoop1.x 版本中是 64M。
HDFS 的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足
够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而，传输一个由多个块组成的文件的时间取决于磁盘传输速率。如果寻址时间约为 10ms，而传输速率为 100MB/s，为了使寻址时间仅占传输时间的 1%，我们要将块大小设置约为 100MB。默认的块大小 128MB。
块的大小：10ms100100M/s = 100M。

HDFS 优缺点

优缺点这一块重点需要强调 HDFS 缺点部分的小文件问题和不能随机修改。
1.优点
（1）高容错性
数据自动保存多个副本。它通过增加副本的形式，提高容错性。
某一个副本丢失以后，它可以自动恢复。
（2）适合大数据处理
数据规模：能够处理数据规模达到 GB、TB、甚至 PB 级别的数据。
文件规模：能够处理百万规模以上的文件数量，数量相当之大。
（3）流式数据访问，它能保证数据的一致性。
（4）可构建在廉价机器上，通过多副本机制，提高可靠性。
2.缺点
（1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
（2）无法高效的对大量小文件进行存储。
存储大量小文件的话，它会占用 NameNode 大量的内存来存储文件、目
录和块信息。这样是不可取的，因为 NameNode 的内存总是有限的。
小文件存储的寻址时间会超过读取时间，它违反了 HDFS 的设计目标。
（3）并发写入、文件随机修改。
一个文件只能有一个写，不允许多个线程同时写；
仅支持数据 append（追加），不支持文件的随机修改。

hdfs读文件

在这里插入图片描述
简易描述：
客户端将要读取的文件路径发送给namenode，namenode获取文件的元信息（主要是block的存放位置信息）返回给客户端，客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件
详细描述：
1、首先调用FileSystem.open()方法，获取到DistributedFileSystem实例
2、DistributedFileSystem通过RPC(远程过程调用)获得文件的开始部分或全部block列表，对于每个返回的块，都包含块所在的DataNode地址。这些DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离，然后再进行排序。
如果客户端本身就是一个DataNode，那么他将从本地读取文件。
3、DistributedFileSystem会向客户端返回一个支持文件定位的输入流对象FSDataInputStream，用于客户端读取数据。FSDataInputStream包含一个DFSInputStream对象，这个对象用来管理DataNode和NameNode之间的I/O
4、客户端调用read()方法，DFSInputStream就会找出离客户端最近的datanode并连接datanode
5、DFSInputStream对象中包含文件开始部分的数据块所在的DataNode地址，首先它会连接包含文件第一个块最近DataNode。随后，在数据流中重复调用read()函数，直到这个块全部读完为止。
如果第一个block块的数据读完，就会关闭指向第一个block块的datanode连接，接着读取下一个 block块
6、如果第一批block都读完了，DFSInputStream就会去namenode拿下一批blocks的location，然后继续读，如果所有的block块都读完，这时就会关闭掉所有的流。
HDFS会考虑在读取中节点出现故障的情况。目前HDFS是这样处理的：如果客户端和所连接的DataNode在读取时出现故障，那么它就会去尝试连接存储这个块的下一个最近的DataNode，同时它会记录这个节点的故障。这样它就不会再去尝试连接和读取块。客户端还会验证从DataNode传送过来的数据校验和。如果发现一个损坏的块，那么客户端将会再尝试从别的DataNode读取数据块，向NameNode报告这个信息，NameNode也会更新保存的文件信息。

读数据流程：
client发送请求给namenode，namenode查找fsimage和editslog获得元数据信息，client根据元数据信息查找最近的DataNode查找信息，向其他相关的datanode扩散请求，信息返回给client

hdfs写文件

在这里插入图片描述
简易描述：
客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本

写数据流程：
client发送请求（含路径）给namenode，namenode查找fsimage和editslog获得相应的元数据信息，判断client端是否有权限写入等，client端找最近的DataNode写入，向其他相关DataNode扩散请求，信息返回给client。同时元数据信息返回给namenode，写入editslog，由secondnamenode执行合并操作（fsimage和editslog）

qzc_root

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop版本、hdfs组成架构、hdfs文件块、优缺点、读写文件流程

Hadoop 三大发行版本1.Apache Hadoop官网地址：http://hadoop.apache.org/releases.html下载地址：https://archive.apache.org/dist/hadoop/common/2.Cloudera Hadoop官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html下载地址：http://archive.cloudera.com/cdh5/cdh/5/3.Hortonwor
复制链接

扫一扫