大数据存储与分析详解-CSDN博客

本文链接：https://blog.csdn.net/Cenny_/article/details/119216063

本文详细介绍了大数据存储与管理，包括HDFS的核心概念、体系结构、存储原理及HDFS 2.0的改进。接着讲解了分布式数据库HBase，阐述了HBase的基本概念、数据模型和实现原理。此外，还探讨了大数据处理与分析中的批处理框架MapReduce和基于内存的计算框架Spark。最后，提到了资源管理调度框架YARN的体系结构和工作流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、大数据存储与管理
二、大数据处理与分析
三、Hadoop相关开源项目
总结

一、大数据存储与管理

1. 分布式文件系统HDFS

1.1 HDFS核心概念

块：块是数据读写的基本单元。HDFS中的文件会被拆分成多个块，每个块作为独立的单元进行存储。
数据节点（DataNode）：分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。
名称节点（NameNode）：负责管理分布式文件系统的命名空间（Name Space），保存了两个核心的数据结构，即FsImage和EditLog：
FsImage用于维护文件系统树中所有的文件和目录的元数据；
EditLog中记录了所有针对文件的创建、删除、重命名等操作。

名称节点在启动时，会将FsImage的内容加载到内存当中，然后执行EditLog文件中的各项操作，使得内存中的元数据保持最新。
创建一个新的FsImage文件和一个空的EditLog文件。
名称节点启动成功并进入正常运行状态以后，HDFS中的更新操作都会被写入到EditLog，而不是直接写入FsImage。（因为对于分布式文件系统而言，FsImage文件通常都很庞大，如果所有的更新操作都直接往FsImage文件中添加，那么系统就会变得非常缓慢。相对而言，EditLog通常都要远远小于FsImage，更新操作写入到EditLog是非常高效的。）
名称节点在启动的过程中处于“安全模式”，只能对外提供读操作，无法提供写操作。启动过程结束后，系统就会退出安全模式，进入正常运行状态，对外提供读写操作。

第二名称节点（Secondary Namenode ）：可以完成EditLog和FsImage的合并操作，减小EditLog文件大小，缩短名称节点重启时间；作为名称节点的检查点，保存名称节点中元数据信息。

1.2 HDFS体系结构

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括了一个名称节点（NameNode）和若干个数据节点（DataNode）。
每个数据节点会周期性的向名称节点发生“心跳“信息，报告自己的状态，没有按时发送“心跳”信息的数据节点被标记为宕机，不再给他分配任何IO请求。
在系统内部，一个文件被切分成多个数据块，这些数据块被分布到若干个数据节点上。当客户，端要访问一个文件时：

把文件名发给NN；
由NN根据文件名找到对应的数据块；
根据每个数据块信息找到实际存储数据块的DN的位置；
把DN位置发送给客户端；
客户端直接访问DN获取数据。
在整个访问过程中，NN并不参与数据传输。这种设计方式，使得一个文件的数据能够在不同的数据节点上实现并发访问，大大提高了数据访问速度。

1.3 HDFS存储原理

数据的冗余存储：作为一个分布式文件系统，为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分布到不同的数据节点。
数据存取策略
（1）数据存放

如果是在集群内发起写操作请求，则把第一个副本放置在发起写操作请求的数据节点上，实现就近写入数据。如果是来自集群外部的写操作请求，则从集群内部挑选一台磁盘不太满、CPU不太忙的数据节点，作为第一个副本的存放地；
第二个副本会被放置在与第一个副本不同的机架的数据节点上；
第三个副本会被放置在与第一个副本相同的机架的其他节点上；
如果还有更多的副本，则继续从集群中随机选择数据节点进行存放。
（2）数据读取
HDFS提供了一个API可以确定一个数据节点所属的机架ID，客户端也可以调用API获取自己所属的机架ID。当客户端读取数据时，从名称节点获得数据块不同副本的存放位置列表，列表中包含了副本所在的数据节点，可以调用API来确定客户端和这些数据节点所属的机架ID。
当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时，就优先选择该副本读取数据，如果没有发现，就随机选择一个副本读取数据。

数据错误与恢复
（1）名称节点出错
NameNode核心FsImage和EditLog，这两个文件发生损坏，那么整个HDFS实例将失效。Hadoop采用两种机制来确保名称节点的安全：第一，把名称节点上的元数据信息同步存储到其他文件系统中；第二，运行一个第二名称节点，当名称节点宕机以后，可以把第二名称节点作为一种弥补措施，利用第二名称节点中的元数据信息进行系统恢复，但是从前面对第二名称节点的介绍中可以看出，这样做仍然会丢失部分数据。因此，一般会把上述两种方式结合使用，当名称节点发生宕机时，首先到远程挂载的网络文件系统中获取备份的元数据信息，放到第二名称节点上进行恢复，并把第二名称节点作为名称节点来使用。
（2）数据节点出错
当数据节点发生故障，或者网络发生断网时，名称节点就无法收到来自一些数据节点的“心跳”信息，这时这些数据节点就会被标记为“宕机”，节点上面的所有数据都会被标记为“不可读”，名称节点不会再给它们发送任何I/O请求。
这时，由于一些数据节点的不可用，会导致一些数据块的副本数量小于冗余因子。
名称节点会定期检查这种情况，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，为它生成新的副本。
（3）数据出错
在文件被创建时，客户端就会对每一个文件块进行信息摘录，并把这些信息写入同一个路径的隐藏文件里面。
当客户端读取文件的时候，会先读取该信息文件，然后利用该信息文件对每个读取的数据块进行校验，如果校验出错，客户端就会请求到另外一个数据节点读取该文件块，并且向名称节点报告这个文件块有错误，名称节点会定期检查并且重新复制这个块。

1.4 HDFS 2.0

HDFS HA
为了解决单点故障问题，HDFS2.0采用了HA（HighAvailability）架构。
在一个典型的HA集群中，一般设置两个名称节点，其中一个名称节点处于“活跃（Active）”状态，另一个处于“待命（Standby）”状态。
处于活跃状态的名称节点负责对外处理所有客户端的请求，而处于待命状态的名称节点则作为备用节点，保存了足够多的系统元数据，当名称节点出现故障时提供快速恢复能力。
也就是说，在HDFSHA中，处于待命状态的名称节点提供了“热备份”，一旦活跃名称节点出现故障，就可以立即切换到待命名称节点，不会影响到系统的正常对外服务。
在某个时刻也只会有一个名称节点处于活跃状态，另一个则处于待命状态。因而，HDFS HA在本质上还是单名称节点，只是通过“热备份”设计方式解决了单点故障问题，并没有解决可扩展性、系统性能和隔离性三个方面的问题
HDFS联邦

HDFS联邦中的名称节点提供了命名空间和块管理功能。
在HDFS联邦中，所有名称节点会共享底层的数据节点存储资源。每个数据节点要向集群中所有的名称节点注册，并周期性地向名称节点发送“心跳”和块信息，报告自己的状态，同时也会处理来自名称节点的指令。
与HDFS1.0不同的是，HDFS联邦拥有多个独立的命名空间，其中，每一个命名空间管理属于自己的一组块，这些属于同一个命名空间的块构成一个“块池”（BlockPool）。每个数据节点会为多个块池提供块的存储。
可以看出，数据节点是一个物理概念，而块池则属于逻辑概念，一个块池是一组块的逻辑集合，块池中的各个块实际上是存储在各个不同的数据节点中的。因此，HDFS联邦中的一个名称节点失效，也不会影响到与它相关的数据节点继续为其他名称节点提供服务。