[HDFS 相关优化 ]

最新推荐文章于 2024-04-17 22:45:49 发布

是汤圆丫

最新推荐文章于 2024-04-17 22:45:49 发布

阅读量668

点赞数 18

分类专栏： java 大数据Hadoop 文章标签： hdfs hadoop 大数据

汤圆

本文链接：https://blog.csdn.net/sql520lt/article/details/137643882

版权

java 同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

大数据Hadoop

7 篇文章 0 订阅

订阅专栏

Hadoop优化有哪些方面

HDFS 小文件影响

影响 NameNode 的寿命，因为文件元数据存储在 NameNode 的内存中
影响计算引擎的任务数量，比如每个小的文件都会生成一个 Map 任务

合并小文件：可以将多个小文件合并成一个大文件。这可以通过使用 Hadoop 提供的工具，如 CombineFileInputFormat 或自定义 MapReduce 作业来实现。这样可以减少 NameNode 需要管理的元数据数量，同时也能减少 Map 任务的数量。

使用 HAR（Hadoop Archive）：HAR 文件是一种将小文件打包成单个归档文件的 Hadoop 解决方案。它允许对一组文件进行透明访问，而无需解压整个归档文件。HAR 文件在 HDFS 上被当作单个文件处理，减少了 NameNode 的负担。

使用 Sequence Files：Sequence Files 是 Hadoop 的一种二进制文件格式，它将小文件存储为一系列键值对。它们可以有效地压缩和存储大量小文件，同时支持快速的数据访问。

调整 MapReduce 配置：可以调整 MapReduce 作业的配置，如 mapreduce.input.fileinputformat.split.maxsize 和 mapreduce.input.fileinputformat.split.minsize，来控制每个 Map 任务处理的文件大小。这有助于优化任务的数量，避免因小文件过多而导致的大量 Map 任务。

使用子目录：在 HDFS 中使用子目录来组织小文件。虽然这不直接减少 NameNode 的负担，但它可以帮助管理文件结构，使得处理更加有序。

数据输入小文件处理：

合并小文件：对小文件进行归档（Har）、自定义 Inputformat 将小文件存储成SequenceFile 文件。
采用 ConbinFileInputFormat 来作为输入，解决输入端大量小文件场景。
对于大量小文件 Job，可以开启 JVM 重用。

合并小文件：可以使用 Hadoop 提供的工具，如 CombineFileInputFormat 或自定义 MapReduce 作业来实现。具体步骤如下：

创建一个自定义的 InputFormat 类，继承自 CombineFileInputFormat。
在自定义的 InputFormat 类中，实现 createReader() 方法，用于读取小文件并返回一个 RecordReader 对象。
在自定义的 RecordReader 类中，实现 nextKeyValue() 方法，用于读取每个小文件的内容，并将其合并为一个键值对。
在 MapReduce 作业的配置中，将自定义的 InputFormat 类设置为输入格式。

归档（Har）：使用 Hadoop Archive (HAR) 工具将小文件打包成一个归档文件。具体步骤如下：

使用 Hadoop Archive 命令行工具将小文件打包成一个 HAR 文件。例如，运行 hadoop archive -archiveName myfiles.har -p /path/to/small/files /output/directory。
在 HDFS 上创建一个新的目录来存储归档文件。
在 MapReduce 作业的配置中，将归档文件的路径作为输入路径。

自定义 InputFormat：创建一个自定义的 InputFormat 类，用于将小文件存储为 SequenceFile 文件。具体步骤如下：

创建一个自定义的 InputFormat 类，继承自 org.apache.hadoop.mapreduce.lib.input.FileInputFormat。
在自定义的 InputFormat 类中，实现 createRecordReader() 方法，用于读取小文件并返回一个 RecordReader 对象。
在自定义的 RecordReader 类中，实现 nextKeyValue() 方法，用于读取每个小文件的内容，并将其转换为键值对。
在 MapReduce 作业的配置中，将自定义的 InputFormat 类设置为输入格式。

开启 JVM 重用：对于大量小文件的 Job，可以通过设置 MapReduce 作业的配置来开启 JVM 重用。具体步骤如下：

在 MapReduce 作业的配置中，设置 mapreduce.job.jvm.numtasks 属性为一个较大的值，以允许多个任务共享同一个 JVM。
在 MapReduce 作业的配置中，设置 mapreduce.job.jvm.reuse 属性为 true，以启用 JVM 重用功能。

Map 阶段

增大环形缓冲区大小。由 100m 扩大到 200m
增大环形缓冲区溢写的比例。由 80%扩大到 90%
减少对溢写文件的 merge 次数。（10 个文件，一次 20 个 merge）
不影响实际业务的前提下，采用 Combiner 提前合并，减少 I/O。

<property>
<name>mapreduce.map.sort.spill.percent</name>
<value>0.9</value>
</property>
<property>
<name>mapreduce.map.sort.spill.percent</name>
<value>0.9</value>
</property>
<property>
<name>mapreduce.task.io.sort.factor</name>
<value>20</value>
</property>

Reduce 阶段

合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误。
设置 Map、Reduce 共存：调整 slowstart.completedmaps 参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间。
规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。
增加每个 Reduce 去 Map 中拿数据的并行数
集群性能可以的前提下，增大 Reduce 端存储数据内存的大小。

IO 传输

采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器。
使用 SequenceFile 二进制文件

整体

MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g
ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g
可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 CPU 核数
增加每个 Container 的 CPU 核数和内存大小
调整每个 Map Task 和 Reduce Task 最大重试次数