分布式架构设计HDFS借鉴思考 & GPT

P("Struggler") ?

已于 2023-04-26 13:50:24 修改

阅读量393

点赞数

分类专栏： Distributed Software 文章标签： hdfs 分布式系统架构

于 2023-04-10 20:28:12 首次发布

本文链接：https://blog.csdn.net/weixin_38233104/article/details/130069002

版权

Good Journey 同时被 2 个专栏收录

124 篇文章 0 订阅

订阅专栏

Distributed Software

74 篇文章 0 订阅

订阅专栏

分布式架构设计HDFS借鉴思考

HDFS（Hadoop Distributed File System）的主要设计思路

HDFS（Hadoop Distributed File System）的主要设计思路是将大数据文件划分成小的数据块，并存储在多个节点上，以实现数据的高可靠性和高吞吐量。其实现步骤如下：

NameNode：HDFS集群中的一个节点，负责管理整个文件系统的元数据，包括文件名、文件块的位置、权限等。NameNode 会维护一个全局唯一的文件系统命名空间，并通过心跳机制监控所有 DataNode 的状态。
DataNode：HDFS 集群中的多个节点，每个节点负责存储数据块，并向 NameNode 发送心跳以保持连接。DataNode 向 NameNode 汇报数据块的存储位置，以便客户端读取和写入数据。
数据块：HDFS 将大文件划分成固定大小的数据块，通常为 128 MB 或 256 MB，以便分布式存储和处理。数据块由 DataNode 存储，并进行副本复制以提高可靠性和可用性。
副本：HDFS 会将数据块复制到多个 DataNode 上，通常为三个副本。这样可以提高数据的可靠性，因为即使某个 DataNode 发生故障，其他节点上的副本也可以继续使用。
客户端：HDFS 客户端负责向 NameNode 发送读写请求，并通过 DataNode 访问数据。客户端可以使用 HDFS API 或命令行界面与 HDFS 进行交互，也可以使用 Hadoop 生态系统中的其他工具进行数据处理和分析。
数据流：HDFS 将数据块通过数据流的方式传输到客户端，以提高数据传输的效率。客户端可以根据需要从多个 DataNode 上并行读取数据，以加快读取速度。同时，HDFS 还支持数据流的写入，以便实时写入大量数据。
故障恢复：当某个 DataNode 发生故障时，HDFS 会自动进行副本恢复。NameNode 会检测到故障的 DataNode 并将其上的数据块副本复制到其他节点上，以保证数据的可靠性和可用性。

NameNode 维护全局唯一的文件系统命名空间的方法如下：

所有的文件和目录都存储在分布式文件系统中，每个文件和目录都有一个唯一的全局标识符（inode）。

文件系统的命名空间是通过树形结构来组织的，每个目录都是一个节点，每个节点都有一个唯一的inode号码。

NameNode 维护一个全局的inode表，其中记录了每个inode号码对应的文件或目录的属性信息，包括文件名、大小、所属用户、所属组、访问权限等。

当客户端请求访问文件或目录时，它需要提供文件或目录的完整路径名。NameNode 会根据路径名，沿着树形结构向下遍历，找到对应的目录或文件。

如果客户端需要创建新文件或目录，它会发送一个请求给NameNode。NameNode 会为新的文件或目录分配一个唯一的inode号码，并在全局inode表中创建一条新的记录。

如果客户端需要删除文件或目录，它会发送一个请求给NameNode。NameNode 会从全局inode表中删除对应的记录，并释放inode号码，同时删除文件或目录在分布式文件系统中的存储空间。

在修改文件或目录的属性时，客户端发送请求给NameNode，NameNode会更新对应的inode表记录。

通过以上方法，NameNode 可以维护全局唯一的文件系统命名空间，并确保每个文件和目录都有一个唯一的inode号码。

HDFS DataNode 的主要设计思路

HDFS DataNode 的主要设计思路是为了实现可靠的数据存储和高可用性的数据访问。具体来说，HDFS DataNode 的设计思路包括以下几个方面：

数据存储：HDFS DataNode 负责在本地存储数据块，每个数据块被复制到多个 DataNode 上，以实现数据冗余和高可靠性。此外，HDFS DataNode 还负责管理存储空间，根据需要从磁盘中释放空间。

数据传输：HDFS DataNode 通过网络传输数据块，支持高速、可靠的数据传输。在数据传输过程中，HDFS DataNode 采用流式传输方式，避免了对数据块的完全缓存，从而降低了传输时的内存开销。

数据完整性：HDFS DataNode 通过数据校验和确保数据的完整性，一旦检测到数据损坏，会自动从其他 DataNode 上获取相同的数据块进行修复。

高可用性：HDFS DataNode 采用了多个 DataNode 的备份机制，确保即使某个 DataNode 发生故障，数据仍然可用。
此外，HDFS DataNode 还支持快速数据恢复，可以在某个 DataNode 故障后快速地将其上的数据块复制到其他 DataNode 上。

总之，HDFS DataNode 的设计思路是为了实现可靠的数据存储和高可用性的数据访问。通过这些设计，HDFS DataNode 可以支持大规模的数据存储和处理，并保证数据的安全性和可靠性。

HDFS 节点通信安全模型的主要设计思路是通过对节点间的通信进行加密和认证，保障数据传输的机密性、完整性和可信性。

身份认证：在 HDFS 节点间的通信过程中，需要对发送和接收方的身份进行认证，以确保通信双方的合法性。HDFS 采用 Kerberos 认证来实现身份认证，该认证协议基于密钥交换和票据传递，保证了通信双方的身份和权限。
通信加密：为保护数据传输的机密性，HDFS 采用 SSL/TLS 协议对通信数据进行加密。SSL/TLS 协议是一种通信安全协议，可以在传输层对数据进行加密和认证，避免数据被拦截和窃听。
数据完整性保护：在数据传输过程中，需要对数据进行完整性保护，以确保数据在传输过程中不被篡改或损坏。HDFS 使用 SHA-256 签名来保护数据的完整性，通过计算数据的哈希值，可以检测数据是否被篡改或损坏。
访问控制：HDFS 采用 ACL（访问控制列表）来控制用户对数据的访问权限。ACL 是一种基于角色和权限的访问控制模型，可以根据用户的身份和权限来控制其对数据的访问。

通过以上措施，HDFS 节点间的通信安全得到了有效保障，数据传输过程中的机密性、完整性和可信性都得到了有效保护。

HDFS 分布式一致性和稳定性

HDFS 保证分布式一致性和稳定性的方式主要有以下几点：

数据复制：HDFS 采用数据副本机制，每个数据块被分为多个副本，并存储在不同的节点上，以保证数据的可靠性和高可用性。

数据校验：HDFS 在写入数据时会对数据进行校验和，保证数据的完整性。同时，在读取数据时也会进行校验和验证，以保证数据的准确性。

心跳机制：HDFS 节点之间通过心跳机制保持通信，每个节点都会定期向 NameNode 发送心跳信号，以保证节点的存活和可用性。

负载均衡：HDFS 采用了块分布式存储的方式，同时具有数据的负载均衡功能，可以在节点之间动态调整数据块的分布，以避免节点负载不均的问题。

故障处理：HDFS 通过 NameNode 对节点进行监控，一旦发现节点出现故障或宕机，会自动将故障节点上的数据块复制到其他正常节点上，以保证数据的可靠性和稳定性。

写入顺序：HDFS 采用顺序写入的方式，可以避免数据的随机写入，提高了数据的写入效率，并且可以减少磁盘的碎片化。

通过以上方式，HDFS 能够保证数据的一致性和稳定性，同时也具有高可用性和高性能的特点，适用于大规模分布式存储和处理大数据的应用场景。

HDFS ResourceManager 的主要设计思路

HDFS ResourceManager 的主要设计思路是将集群资源进行集中管理，以便更高效地运行大规模的数据处理任务。它的实现步骤包括：

集中管理资源：ResourceManager 负责管理整个集群的资源，包括节点、内存和 CPU。它会根据任务需求，将资源分配给不同的节点和应用程序。

实现任务调度：ResourceManager 使用调度器来确定每个应用程序的资源需求，并分配资源以保持集群的平衡。它可以根据不同的调度策略进行调度，如公平调度和容量调度。

监控和维护：ResourceManager 会监控整个集群的状态，并及时发现和处理故障。它可以对节点进行健康检查，以确保它们能够正常工作，并在必要时重新启动它们。

提供接口：ResourceManager 提供了一个 RESTful 接口，以便用户可以通过命令行或 Web 界面来管理和监控应用程序和集群。

故障转移：ResourceManager 还提供了故障转移功能，以确保即使出现故障，应用程序仍能够正常运行。它会将任务和状态信息保存在 HDFS 中，以便在出现故障时能够恢复。

集成其他组件：ResourceManager 还可以与其他组件集成，如 YARN 和 Spark，以提供更多的功能和灵活性。

分布式数据同步

服务器集群同步所有变动的方式主要有两种：同步和异步。

同步方式：当任何一个节点更新了数据，它必须等待其他所有节点确认更新后才能继续进行操作。这种方式保证了数据的一致性，但是会降低整个系统的性能。

异步方式：当任何一个节点更新了数据，它不需要等待其他节点确认更新，可以直接继续进行操作。这种方式提高了系统的性能，但是可能会导致数据的不一致。

针对分布式设计单点写入多点读取冗余备份的问题，可以采用以下方案：

1.采用主从架构：其中一个节点作为主节点，负责数据的写入，其他节点作为从节点，负责数据的读取。主节点更新数据后，会将数据同步到从节点中，从而实现数据的冗余备份。

2.采用分片架构：将数据划分成多个分片，每个分片可以单独存储在不同的节点中。当需要读取数据时，可以同时从多个节点中读取数据，从而提高系统的读取性能。同时，每个分片也可以进行冗余备份，以保证数据的可靠性。

3.采用缓存架构：将热点数据缓存在内存中，可以大大提高系统的读取性能。当数据更新时，可以通过消息队列等方式通知其他节点更新缓存。同时，也可以将缓存数据进行冗余备份，以保证数据的可靠性。