Apache Hadoop的核心组成及其架构

NingKangMing

已于 2024-07-05 13:56:40 修改

阅读量1.4k

点赞数 12

分类专栏： Hadoop 文章标签： apache hadoop 架构

于 2024-06-11 10:06:19 首次发布

本文链接：https://blog.csdn.net/u012882823/article/details/139591349

版权

Hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Apache Hadoop是分布式存储和计算框架，由HDFS、MapReduce和YARN组成。HDFS是分布式文件系统，提供高吞吐率的数据访问；MapReduce是并行处理模型，基于Map和Reduce阶段处理大规模数据；YARN是资源管理层，负责集群资源的管理和调度，支持多种数据处理框架。YARN的优势在于资源隔离、扩展性和兼容性。

摘要由CSDN通过智能技术生成

核心组成

Apache Hadoop 是一个开源的分布式存储与计算框架，它主要由以下几个核心组件组成：

Hadoop Distributed File System (HDFS): HDFS 是 Hadoop 的分布式文件系统，它设计用于存储大量数据，并提供高吞吐率的数据访问，通过将数据分块存储在多个节点上，实现数据的冗余存储和容错。
Hadoop YARN (Yet Another Resource Negotiator): YARN 是 Hadoop 的资源管理层，负责管理计算资源（如 CPU 和内存），并为运行在 Hadoop 集群上的应用程序分配资源。YARN 引入了资源调度和作业管理的概念，使得 Hadoop 能够运行多种数据处理框架。
Hadoop MapReduce: MapReduce 是 Hadoop 的编程模型，用于并行处理大规模数据集。MapReduce 工作流程分为两个阶段：Map 阶段和 Reduce 阶段，通过 Map 函数处理输入数据，然后通过 Reduce 函数聚合处理结果。

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

除了这三个核心组件，Hadoop 生态系统还包含许多其他的项目和工具，如：

Hadoop Common：提供了 Hadoop 运行所需的公共库和工具。
Hive：一个建立在 Hadoop 之上的数据仓库基础设施，提供 SQL 查询语言 SQL（HiveQL）来查询存储在 Hadoop 文件系统中的数据。
Pig：一个高级的平台，用于创建 MapReduce 程序，使用 Pig Latin 脚本语言。
HBase：一个分布式、可扩展的大数据存储系统，运行在 Hadoop 之上，提供类似 Google Bigtable 的功能。
Sqoop：一个用于在 Hadoop 和关系型数据库之间传输数据的工具。
Flume：一个分布式、可靠且可用的系统，用于高效地收集、聚合和移动大量日志数据。
Spark：一个快速通用的大数据处理引擎，可以用于大规模数据处理和分析，与 Hadoop 生态系统紧密集成。

Hadoop 生态系统的这些组件共同提供了一个完整的大数据解决方案，使得用户可以在单一平台上进行数据存储、管理、处理和分析。

HDFS架构

图中涉及到几个角色，

NameNode（nn）：存储文件的元数据，比如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

SecondaryNameNode（2nn）：辅助NameNode更好的工作，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据快照。

DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验

MapReduce思想

Hadoop MapReduce 是一个软件框架，用于在 Hadoop 分布式存储系统上进行大规模数据处理。它允许开发者编写应用程序来并行处理大量数据集分布在计算机集群中。MapReduce 编程模型基于两个主要的处理阶段：Map（映射）和 Reduce（归约）。核心思想是分而治之，并行处理。

mapReduce简略流程图

Map（映射）阶段：

在 Map 阶段，输入数据被拆分成多个小块（chunks），然后每个块被分配给一个 Map 任务进行处理。

Map 函数接收键值对数据作为输入，并对每一对键值对数据进行转换，产生一系列中间键值对。

Map 任务的输出被排序，并根据键值对的键进行分组，为 Reduce 阶段做准备。

Shuffle（洗牌）阶段：

Shuffle 阶段是 Map 和 Reduce 之间的过渡阶段，它负责将 Map 阶段的输出传输到相应的 Reduce 任务。

在这个阶段，相同键的中间键值对被发送到同一个 Reduce 任务。

Reduce（归约）阶段：

在 Reduce 阶段，每个 Reduce 任务接收到所有具有相同键的值的集合。

Reduce 函数对这些值进行处理，产生最终的输出结果。

Reduce 任务的输出被写入磁盘，形成最终的处理结果。

Hadoop MapReduce 提供了高度的可扩展性和容错性，它可以处理PB级别的数据，并且在节点故障时能够自动恢复数据和任务。MapReduce 的编程模型虽然相对简单，但它在处理大规模数据集时非常有效。

Hadoop MapReduce 的优势在于其能够利用集群中的所有计算资源，以及其对故障的鲁棒性（Fault Tolerance）。然而，它也有一些局限性，如对实时处理的支持不足，以及对复杂数据处理流程的管理不够灵活。随着大数据技术的发展，一些新的框架如 Apache Spark、Flink等已经出现，它们提供了更高效的数据处理方式，特别是在迭代算法和交互式数据分析方面。