【大数据篇】深入理解Hadoop原理

最新推荐文章于 2024-05-26 17:09:31 发布

林木森^~^

最新推荐文章于 2024-05-26 17:09:31 发布

阅读量796

点赞数 15

分类专栏：大数据文章标签：大数据 hadoop 分布式

本文链接：https://blog.csdn.net/lin819747263/article/details/137416977

版权

大数据专栏收录该内容

21 篇文章 3 订阅

订阅专栏

Hadoop是一个开源框架，由Apache软件基金会维护，用于在大规模数据集上进行分布式存储和分布式处理。它设计用来从单台服务器扩展到数千台机器，每台机器提供局部计算和存储。而且，Hadoop通过检测和处理应用层的故障来提供高可用性。

核心功能：

分布式存储：Hadoop通过其Hadoop Distributed File System (HDFS)提供高效的分布式存储功能。HDFS能够存储大量数据，将数据分割成块（默认大小为128MB或256MB），并跨集群的多个节点分散存储这些块。
分布式处理：Hadoop利用MapReduce编程模型来处理数据。MapReduce将计算分为两个阶段：Map阶段和Reduce阶段。这允许系统并行处理大量数据。
容错和可靠性：Hadoop通过自动保存数据的多个副本来实现容错。如果某个节点失败，系统会重新计算丢失的数据副本。
可扩展性：Hadoop集群可以轻松扩展到更多的节点，不需要更改数据格式、应用程序或处理流程。

核心组件：

HDFS（Hadoop Distributed File System）：提供高吞吐量的数据访问和适合大数据集的文件系统。
MapReduce：一个编程模型和处理大量数据的实现。
YARN（Yet Another Resource Negotiator）：用于集群资源管理和调度的框架。
Common：提供Hadoop模块所需的常见实用程序和库。

应用场景：

大数据分析：Hadoop常用于执行大数据分析任务，如日志分析、社交媒体数据分析等。
数据仓库：可以作为企业数据仓库的数据存储，用于存储来自不同来源的大量结构化和非结构化数据。
数据湖：Hadoop可以作为数据湖的基础，允许组织存储原始数据，直到确定了如何最佳地使用该数据。
机器学习和数据挖掘：提供大量数据的处理能力，使其成为训练机器学习模型和数据挖掘的理想选择。

Hadoop运行架构

Hadoop的运行架构主要基于Hadoop分布式文件系统（HDFS）和MapReduce计算模型，还包括了资源管理器YARN（Yet Another Resource Negotiator）。下面是这些组件及其进程的详细介绍：

HDFS

HDFS是Hadoop的存储层，它是一个高度容错的系统，用于存储大规模数据集。HDFS有两种主要类型的节点组成：NameNode和DataNode。

NameNode：
- NameNode是HDFS的主服务器，管理文件系统的命名空间和元数据。
- 它记录每个文件中的数据块（block）信息和数据块存储的位置。
- 不存储实际数据，只维护目录树和整个文件系统的元数据。
- 在Hadoop 2.x中，引入了Secondary NameNode和Active/Standby NameNodes的概念来提高系统的可用性和容错性。
DataNode：
- DataNode负责存储实际数据。
- 在HDFS中，文件被分割成一个或多个块，这些块存储在一个或多个DataNode上。
- DataNode负责处理文件系统客户端的读写请求，并根据NameNode的指令创建、删除和复制数据块。

MapReduce

MapReduce是Hadoop的计算框架，用于处理大数据集的并行计算。它有两个主要的组件：JobTracker和TaskTracker。

JobTracker：
- 在Hadoop 1.x中，JobTracker负责整个系统中所有作业的调度和监控。
- 它在集群中的一个节点上运行，跟踪每个TaskTracker，提交作业，分配任务，并重新执行失败的任务。
TaskTracker：
- TaskTracker运行在集群的每个节点上，负责执行由JobTracker分配的任务。
- 每个TaskTracker负责执行Map和Reduce任务，并将进度和状态报告回JobTracker。

YARN

为了解决Hadoop 1.x中的扩展性和资源管理问题，Hadoop 2.x引入了YARN，将资源管理和作业调度/监控功能分开。

ResourceManager：
- ResourceManager（RM）是YARN架构的主要组件，负责整个集群的资源管理和作业调度。
- RM有两个主要组件：调度器（Scheduler）和应用程序管理器（ApplicationManager）。调度器根据容量、队列等策略分配资源，而应用程序管理器管理整个系统中所有应用程序的生命周期。
NodeManager：
- NodeManager（NM）运行在集群的每个节点上，负责监控其节点上的资源使用情况，并向ResourceManager报告。
- NM负责管理容器，容器是执行特定任务（如MapReduce任务）的执行环境。
ApplicationMaster：
- 每个应用程序（例如，一个MapReduce作业或其他分布式框架的作业）都有一个ApplicationMaster。
- 它负责数据分割、任务分配和监控任务执行，还与ResourceManager通信以获取所需资源。

Hadoop运行架构的核心组件和进程确保了分布式处理和存储的高效性。接下来，我们将详细探讨这些组件在Hadoop作业执行过程中的交互和协作方式，以及它们如何共同实现数据的高效处理。

Hadoop作业执行流程

作业提交：
- 用户编写的MapReduce程序首先被提交给YARN的ResourceManager。
- ResourceManager负责初始化作业，并启动ApplicationMaster实例来管理该作业。
ApplicationMaster启动：
- 对于每个作业，YARN启动一个ApplicationMaster，它负责协调作业的执行，包括请求资源（如CPU、内存等），监控任务执行进度，并在任务失败时重新调度任务。
资源分配：
- ApplicationMaster向ResourceManager请求运行任务所需的资源。ResourceManager根据可用资源和策略（如公平调度器或容量调度器）分配资源，并指示ApplicationMaster在哪些NodeManager上启动任务。
任务执行：
- ApplicationMaster与被选中的NodeManagers通信，要求它们启动容器来执行具体的任务（Map任务或Reduce任务）。
- NodeManager为任务启动容器，容器内运行实际的Map或Reduce任务。这些任务处理输入数据，并产生输出结果。
进度和状态更新：
- Task进程将进度和状态更新回NodeManager，NodeManager则将这些更新传达给ApplicationMaster。ApplicationMaster保持作业进度的追踪，并处理如任务失败等异常情况。
作业完成：
- 所有任务完成后，ApplicationMaster向ResourceManager注册作业完成，并释放所有资源。
- 用户可以从HDFS中检索MapReduce作业的输出数据。

关键特性和优化

数据局部性优化：YARN和HDFS共同努力将任务调度到包含数据的节点上，减少网络传输，提高效率。
容错机制：HDFS通过在不同节点上复制数据块来实现容错。YARN、MapReduce和HDFS能够检测到失败的组件，并自动重新执行失败的任务或重新调度任务到其他节点。
资源隔离：通过使用Linux容器等技术，Hadoop确保不同任务之间的资源隔离，防止一个任务消耗过多资源而影响其他任务。
可扩展性：Hadoop设计为可以轻松地通过添加更多的节点来水平扩展，以便处理更大的数据集和更复杂的计算任务。

Hadoop 优化

Hadoop的性能优化是一个复杂的过程，涉及对Hadoop集群的配置、作业设计和资源管理的调整。以下是一些常见的Hadoop优化技巧：

1. 数据局部性优化

优化HDFS块大小：增大HDFS的默认块大小（通常从128MB调整到更高），可以减少MapReduce作业的任务数量，从而减少管理任务的开销，提高处理速度。
使用CombineFileInputFormat：对于小文件，使用CombineFileInputFormat可以将多个小文件打包成一个更大的“虚拟”输入块，这样可以减少Map任务的数量，提高数据局部性。

2. MapReduce作业调优

Map和Reduce任务数量调整：合理设置Map和Reduce任务的数量可以显著影响作业的性能。过多的任务会增加调度和管理的开销，而过少的任务则不能充分利用集群资源。
内存和CPU资源调整：为Map和Reduce任务分配适当的内存和CPU资源，避免资源浪费或不足。可以通过YARN的资源管理配置（如mapreduce.map.memory.mb和mapreduce.reduce.memory.mb）来设置。

3. 压缩数据

启用中间数据压缩：在Map和Reduce阶段之间压缩数据可以减少磁盘I/O和网络传输的负载。可以通过设置mapreduce.map.output.compress为true来启用。
选择高效的压缩格式：使用高效的压缩格式（如Snappy或LZO）可以在保持良好压缩率的同时提供快速的压缩和解压速度。

4. 使用高级数据处理模式

使用CombineFileInputFormat：对于处理大量小文件的作业，使用CombineFileInputFormat可以将多个小文件合并为较大的输入块，减少Map任务的数量，提高处理效率。
使用Combiner：在Map阶段后使用Combiner可以减少向Reduce任务传输的数据量，特别是在进行求和、计数等操作时非常有效。

5. YARN资源管理优化

调整Container大小：根据应用的实际需要调整YARN Container的大小，避免资源分配不足或浪费。
调整队列和资源分配策略：在YARN中合理配置资源队列和分配策略，确保不同优先级和类型的作业能够获得合理的资源分配。

6. 监控和调试

使用Hadoop日志和监控工具：利用Hadoop自带的日志和监控工具（如Ambari、Ganglia等）来监控集群和作业的性能，及时发现和解决问题。
分析作业性能：通过分析MapReduce作业的详细日志和计数器，识别性能瓶颈和低效操作。

7. 软件和硬件优化

使用SSD：对于I/O密集型的作业，使用SSD可以显著提高数据读写速度。
网络优化：在Hadoop集群中，网络带宽是一个重要的瓶颈。确保网络设备（如交换机）和配置能够处理高数据传输需求。在可能的情况下，使用高速网络连接，比如10GbE，以减少数据传输时间。

8. 并行处理

优化并行度：合理设置Map和Reduce任务的并行度可以显著影响作业执行效率。通过调整mapreduce.job.maps和mapreduce.job.reduces配置，根据数据量和集群容量来优化任务的并行度。

9. 数据分区和分布策略

自定义分区器：使用自定义分区器（Partitioner）可以更有效地分配数据到Reduce任务，特别是当数据不均匀分布时。这有助于避免某些Reduce任务成为瓶颈，从而提高整体作业的执行效率。
数据倾斜处理：当遇到数据倾斜问题时，可以通过采样或其他技术预处理数据，使其分布更均匀，避免某些任务过载而其他任务空闲。

10. 利用Hadoop生态系统

选择合适的工具：根据具体需求选择Hadoop生态系统中的合适工具。例如，对于需要SQL查询的应用场景，可以使用Hive或Impala。对于需要实时处理的场景，可以考虑使用Storm或Spark Streaming。
使用高级数据格式：使用高效的数据存储格式，如Parquet或ORC，这些格式针对列存储进行了优化，可以提高查询性能和数据压缩率。

11. 定期维护和优化

集群维护：定期对Hadoop集群进行维护，比如清理旧数据和日志，检查和替换故障硬件，更新和升级软件等，以保持集群的健康和性能。
优化Hadoop配置：根据集群的使用情况和性能指标，定期审查和优化Hadoop配置参数，包括内存设置、I/O设置、网络配置等。

林木森^~^

关注

15
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
【大数据篇】深入理解Hadoop原理

Hadoop是一个开源框架，由Apache软件基金会维护，用于在大规模数据集上进行分布式存储和分布式处理。它设计用来从单台服务器扩展到数千台机器，每台机器提供局部计算和存储。而且，Hadoop通过检测和处理应用层的故障来提供高可用性。
复制链接

扫一扫