hadoop之调优简介

梦回pq

于 2023-02-09 19:32:33 发布

阅读量728

点赞数

本文链接：https://blog.csdn.net/cxzaiwyy/article/details/128907525

版权

大数据专栏收录该内容

10 篇文章 2 订阅

订阅专栏

本文详细介绍了HadoopHDFS的调优方法，包括NameNode内存配置、心跳并发配置、回收站功能、多目录配置、集群扩容缩容、存储优化（纠删码和异构存储）、故障排除（NameNode故障处理、集群安全模式、慢磁盘监控、小文件归档）以及MapReduce生产经验。此外，还涉及到了HDFS集群迁移和常用核心参数的调优策略。

摘要由CSDN通过智能技术生成

一、HDFS核心参数

HDFS一般由NameNode（NN）、DataNode（DN）、SecondaryNameNode（2NN）等组成，NameNode是HDFS的核心管理者，DataNode是HDFS每个节点的管理者。

1、NameNode内存配置

通过以下命令可以查看NameNode的占用内存

jmap -heap 进程号

通过以下命令可以查看节点运行的进程：

$ jps
3088 NodeManager
2611 NameNode
3271 JobHistoryServer
2744 DataNode
3579 Jps
# 查看NameNode占用内存
jmap -heap 2611
# 查看DataNode占用内存
jmap -head 2744

NameNode的默认内存是2000M，在hadoop-env.sh文件中配置如下：

HADOOP_NAMENODE_OPTS=-Xmx3072m

如果想将其修改为1G，则可以通过以下文件，添加内容如下：
etc/hadoop/hadoop-env.sh

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

按照一般的经验值：
NameNode最小值为1G，且每增加百万个Block，增加1G内存；
DataNode最小值为4G，副本数低于四百万时为4G，超过4百分每增加100万个副本，增加1G内存。

2、NameNode心跳并发配置

NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。默认值在 hdfs-site.xml 中配置为10.

<property>
    <name>dfs.namenode.handler.count</name>
    <value>10</value>
</property>

一般的经验是根据DataNode的台数来配置，配置公式为：
dfs.namenode.handler.count = 20 x loge为底台数的对数
比如DataNode的台数为3，则为 201.0986 = 21线程；DataNode的台数为200，则为205.298 = 106线程。

3、开启回收站配置

回收功能配置：
我们默认在HDFS删除文件时，是不可以恢复的，但可以开启HDFS的回收站功能，在删除文件不超时的情况下，可以恢复数据，起到防止误删的效果。
回收站的配置在 core-site.xml 中配置，fs.trash.interval 的默认值是0，表示不开启回收功能，如果为其他数字，表示垃圾回收的保存时间，单位是分钟，下面是垃圾回收保存1分钟：

<property>
    <name>fs.trash.interval</name>
    <value>1</value>
</property>

参数值 fs.trash.checkpoint.interval 表示检查回收站的间隔时间，如果该值为0，则该值设置和fs.trash.interval 的参数值相等。要求是 fs.trash.checkpoint.interval <= fs.trash.interval 。

回收功能路径：
回收站目录在HDFS集群中的路径：/user/mrlin/.Trash/….

回收功能注意事项：
通过Web端删除的文件，不会进入回收站；
通过程序端，需要调用 moveToTrash() 接口才会进入回收站；
只有通过命令行利用hadoop fs -rm命令删除的文件才会走回收站。

恢复回收站数据：
hadoop fs -mv /user/mrlin/.Trash/Current/user/mrlin/input /user/mrlin/input
需要手动将会在站里面的文件移动或者复制出来HDFS的政策目录。

二、HDFS集群压测

一个集群搭建完成后，不能立刻投入使用，必须对集群做一定的压测，了解集群大概能承受多大的访问量和集群的大概性能。HDFS的读写性能主要受磁盘和网络的影响，测试可以使用hadoop自带的测试程序。

测试网络性能：

# 可以在 /opt/module/sortware 中测试：
python -m SimpleHTTPServer

测试集群写性能：

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

其中 nrFiles n为生成mapTask的数量，生产环境一般可通过hadoop103:8088查看CPU核数，设置为（CPU核数 - 1）
生成信息解读：
Number of files：生成mapTask数量，一般是集群中（CPU核数-1），我们测试虚拟机就按照实际的物理内存-1分配即可
Total MBytes processed：单个map处理的文件大小
Throughput mb/sec：单个mapTak的吞吐量
计算方式：处理的总文件大小/每一个mapTask写数据的时间累加
集群整体吞吐量：生成mapTask数量*单个mapTak的吞吐量
Average IO rate mb/sec：平均mapTak的吞吐量
计算方式：每个mapTask处理文件大小/每一个mapTask写数据的时间全部相加除以task数量
IO rate std deviation：方差、反映各个mapTask处理的差值，越小越均衡

由于副本在hadoop102本地，因此不参与测试，上面每个服务器写10个文件，共2个服务器，压测速度大概是Throughput mb/sec：1.61，因此实际为1021.61 = 32M/s 左右，而服务器的带宽为 30M/s，表示所有的网络资源都已经用满，因为瓶颈就在网络或者磁盘的最小值。
如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数。

测试集群的读性能：

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

读取的结果为：Throughput mb/sec: 200.28
这里读取的结果远大于写入的结果，是因为每个数据都是存3个副本，且只有3台服务器，所以所有的数据都是本地读取的，也就是没有用到网络，瓶颈就是网络磁盘的读取速度。

删除测试生成数据：

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

三、HDFS多目录

1、NameNode多目录配置

NameNode 的本地目录可以配置成多个，且每个目录存放内容相同，增加了系统的可靠性。
在 hdfs-site.xml 文件中添加如下内容：

<property>
     <name>dfs.namenode.name.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
</property>

配置 NameNode 必须重新初始化集群，或者在集群创建开始就要设置多目录的配置，重新初始化集群的话，必须先删除所有节点的 data 和 logs 中所有数据。

rm -rf data/ logs/
rm -rf data/ logs/
rm -rf data/ logs/
bin/hdfs namenode -format
sbin/start-dfs.sh

2、DataNode多目录配置

不同于 NameNode 的多目录，DataNode 设置多目录是每个目录存储的数据是不一样的，它是防止单块硬盘的空间不够用，给 NameNode 配多一个目录。
具体配置在 hdfs-site.xml 文件中添加如下内容：

<property>
     <name>dfs.datanode.data.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
</property>

3、集群数据均衡之磁盘间数据均衡

当集群新增磁盘时，可以使用磁盘均衡命令，将各个磁盘的负载均衡配置。
（1）生成均衡计划

hdfs diskbalancer -plan hadoop103

（2）执行均衡计划

hdfs diskbalancer -execute hadoop103.plan.json

（3）查看当前均衡任务的执行情况

hdfs diskbalancer -query hadoop103

（4）取消均衡计划任务

hdfs diskbalancer -cancel hadoop103.plan.json

四、HDFS集群扩容及缩容

1、配置白名单

白名单：表示在白名单的主机IP地址可以用来存储数据。
黑名单：表示在黑名单的主机IP地址不可以用来存储数据，常用来缩容服务器的数量。
（1）在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件
创建白名单：并写入白名单服务器

vim whiltelist
# 并写入以下内容：
hadoop102
hadoop103
touch blacklist

（2）在 hdfs-site.xml 里面增加白名单和黑名单的文件路径

<!-- 白名单 -->
<property>
	 <name>dfs.hosts</name>
	 <value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelist</value>
</property>

<!-- 黑名单 -->
<property>
	 <name>dfs.hosts.exclude</name>
	 <value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklist</value>
</property>

（3）分发白名单和配置文件信息

sxync hdfs-site.xml whitelist blacklist

首次创建配置白名单黑名单，需要重启服务集群，后续只需动态刷新节点即可，不用再重启集群。上面设置hadoop104不在白名单，所以在hadoop104上面上传文件不成功。
修改白名单，添加hadoop104，再刷新节点即可。刷新节点命令如下：

hdfs dfsadmin -refreshNodes

2、服役新服务器

服务集群一旦启动，并不是一成不变的，随着业务的增长和变化，需要动态添加或删除某些节点，动态添加或删除节点时，要求不能影响正常运行的业务。

服役新服务器：
（1）新添加的服务器先配置java，hadoop和环境变量等环境，加入脚本分发的列表，加入ssh无密码登录的列表等。
（2）直接启动DataNode，即可关联到集群中

hdfs --daemon start datanode
yarn --daemon start nodemanager

（3）因为添加了白名单，需要将新服役的节点添加到白名单whitelist中，添加后重启集群
（4）分发配置，并刷新NameNode

xsync whitelist
hdfs dfsadmin -refreshNodes

3、服务器间数据均衡

在客户端提交HDFS数据时，因为数据本地性原则，就会导致客户端所在的节点数据存储比其他节点要多。另一种情况就是上面新添加服务器节点时，新添加的服务器节点肯定是没有数据的，这时最好的就是将HDFS上面的文件平均存储，这样能让每台服务器的负载均衡达到整体最佳的性能。
在新添加的服务器节点或者比较空闲的节点上执行如下数据均衡命令：

sbin/start-balancer.sh -threshold 10

对于参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。
如需停止数据均衡命令如下：

sbin/stop-balancer.sh

4、黑名单退役服务器

黑名单：表示在黑名单的主机IP地址不可以用来存储数据。
（1）在hadoop-3.1.3/etc/hadoop/blacklist 里面添加退役主机名称
（2）配置黑名单文件目录到配置文件 hdfs-site.xml 中，上面添加白名单时已经配置好
（3）分发hdfs配置文件和黑名单配置文件 blacklist

xsync hdfs-site.xml blacklist

（4）第一次添加黑名单时，需重启集群，现在是新增，只需刷新NameNode节点信息即可

hdfs dfsadmin -refreshNodes

（5）检查Web客户端，可以看到该节点状态为Decommissioning，符号为绿色的禁止符，说明数据节点正在复制数据块信息到其他节点中
（6）等待退役节点状态为Decommissioned时，符号为橙色的禁止符，说明数据节点已经将数据块信息全部复制完成。注意：当剩余的数据节点小于数据的副本数时，是无法退役成功的。比如退役后只剩2台节点，而副本数为3，则无法退役成功，应该先修改副本数为2才可以。
（7）停止该节点上面的DataNode和NodeManager

hdfs --daemon stop datanode
yarn --daemon stop nodemanager

（8）如果数据不均衡，可以用命令实现集群的再平衡

sbin/start-balancer.sh -threshold 10

五、HDFS存储优化

HDFS默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码，纠删码引用多余数据块的方式，以此将原始数据分块进行计算校验。这样采用文件+校验块的方式，确保数据可以有几个副本的缺失，提高了数据可靠性的同时，大约可以节约50%的存储空间，相对的也会消耗部分CPU的性能。

1、纠删码

纠删码策略

hadoop默认支持的纠删码策略有RS-10-4-1024k，RS-3-2-1024k，RS-6-3-1024k，RS-LEGACY-6-3-1024k 和 XOR-2-1-1024k 等，可以通过如下命令进行查看：

hdfs ec -listPolicies

以 RS-3-2-1024k 为例，其他纠删码策略都是一样的。RS是编码的名称，采用RS编码，每3个数据单元，生成2个校验单元，共5个单元，也就是说：这5个单元中，只要有任意的3个单元存在（不管是数据单元还是校验单元，只要总数=3），就可以得到原始数据。每个单元的大小是1024k=1024*1024=1048576。这里的3个数据单元，不是数据的副本数为3，而是类似将一个文件300M，拆分成3个单元，再加2个检验单元，理论上就是存储多了两个校验单元，比数据存储3个副本空间为900M要省几乎一半的空间。
一般来说，后面的数字2，也代表着可以恢复数据的最大损坏数量，3-2可以允许5个单元中最大损坏2个的情况下恢复数据，同时3-2也代表着最低需要5个服务节点，每个节点存储1个单元，这样在其中两个节点损坏的情况下，还能恢复数据，做到了数据基本的保障。

纠删码应用

纠删码的应用，是给一个具体的路径设置纠删码策略，所有往次路径下存储的文件，都会执行对应的纠删码策略。hadoop默认是只开启对 RS-6-3-1024k 的支持，如需使用其他策略需提前启用。
（1）开启对RS-3-2-1024k策略的支持

hdfs ec -enablePolicy  -policy RS-3-2-1024k

（2）在HDFS创建目录，并设置RS-3-2-1024k策略

hdfs dfs -mkdir /input
hdfs ec -setPolicy -path /input -policy RS-3-2-1024k

（3）上传文件，并查看文件编码后的存储情况

hdfs dfs -put web.log /input

注：你所上传的文件需要大于2M才能看出效果。（低于2M，只有一个数据单元和两个校验单元）
（4）随机破坏2个文件，3个文件，看是否能在Web端正常下载

纠删码相关命令

$ hdfs ec
Usage: bin/hdfs ec [COMMAND]
       [-listPolicies]
       [-addPolicies -policyFile <file>]
       [-getPolicy -path <path>]
       [-removePolicy -policy <policy>]
       [-setPolicy -path <path> [-policy <policy>] [-replicate]]
       [-unsetPolicy -path <path>]
       [-listCodecs]
       [-enablePolicy -policy <policy>]
       [-disablePolicy -policy <policy>]
       [-help <command-name>].

具体使用可以查看帮助信息。

2、异构存储（冷热数据分离）

异构存储就是将不同的数据，存储在不同类型的磁盘上面，经常需要用的，偶尔用的，只需备份归档的，要分别存储在不同的磁盘上面，达到最佳性能的问题，

存储类型和存储策略

存储类型：

存储类型	存储介质
RAM_DISK	内存存储
SSD	固态存储
DISK	磁盘存储
ARCHIVE	归档存储（没有特指哪种存储，主要是指计算比较弱而存储密度比较高的存储介质，用来解决数据量的扩增问题）

存储策略：

策略ID	策略名称	副本分布	副本分布
15	lazy_persist	RAM_DISK,1,DISK:n-1	1个副本在内存，其他在磁盘
12	All_SSD	SSD n	所有文件在固态硬盘
10	One_SSD	SSD 1,DISK n-1	1副本在固态，其他在磁盘
7	HOT（default）	DISK n	所有副本都在磁盘，默认的存储方式
5	WARM	DISK 1，ARCHIVE n-1	一个副本在磁盘，其他在归档存储
2	COLD	ARCHIVE n	所有存储都在归档

异构存储的Shell操作

查看当前有哪些存储策略

$ hdfs storagepolicies -listPolicies

获取指定路径（数据存储目录或文件）的存储策略

hdfs storagepolicies -getStoragePolicy -path /hdfsdata

为指定路径（数据存储目录）设置指定的存储策略

hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARM

取消存储策略，执行命令后该目录或者文件，以上级目录的策略为主，如果是根目录，则默认是HOT策略

hdfs storagepolicies -unsetStoragePolicy -path /hdfsdata

查看文件块的分布

bin/hdfs fsck xxx -files -blocks -locations

查看集群节点

hadoop dfsadmin -report

异构存储文件配置

（1）配置 hdfs-site.xml 文件添加各服务器节点的磁盘信息
hadoop102节点的 hdfs-site.xml 添加如下信息：

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name> 
	<value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/ram_disk</value>
</property>

hadoop103节点的 hdfs-site.xml 添加如下信息：

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[SSD]file:///opt/module/hadoop-3.1.3/hdfsdata/ssd,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk</value>
</property>

hadoop104节点的 hdfs-site.xml添加如下信息：

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[RAM_DISK]file:///opt/module/hdfsdata/ram_disk,[DISK]file:///opt/module/hadoop-3.1.3/hdfsdata/disk</value>
</property>

hadoop105节点的hdfs-site.xml添加如下信息：

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archive</value>
</property>

hadoop106节点的hdfs-site.xml添加如下信息：

<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.storage.policy.enabled</name>
	<value>true</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>[ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsdata/archive</value>
</property>

（2）重新关闭集群，删除data和log数据，初始化节点，开启集群并创建目录和上传文件

hdfs namenode -format
myhadoop.sh start
hadoop fs -mkdir /hdfsdata
hadoop fs -put /opt/module/hadoop-3.1.3/NOTICE.txt /hdfsdata

异构存储文件策略设置

（1）获取刚创建的路径的存储策略

hdfs storagepolicies -getStoragePolicy -path /hdfsdata

在没有设置任何存储策略时，就是按照系统默认的HOT策略，都是存储在DISK中。
（2）查看刚上传的文件的块存储策略，查看路径hdfsdata下的文件的块信息以及本地存储信息

hdfs fsck /hdfsdata -files -blocks -locations

（3）设置hdfsdata下的文件为warn策略存储

hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy WARN

此时查看，可以看到文件依旧在原处，我们需要手动执行一下的命令

hdfs fsck /hdfsdata -files -blocks -locations
hdfs mover /hdfsdata
hdfs fsck /hdfsdata -files -blocks -locations

设置后，能看到预期的结果为一半在DISK，一半在ARCHIVE，符合我们设置的WARM策略。
（4）分别设置Cold和SSD策略

hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy COLD
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy One_SSD
hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy All_SSD
hdfs mover /hdfsdata

以上分别设置了Cold和SSD策略策略之后，都需要执行一下 hdfs mover /hdfsdata 命令；并且当我们设置成COLD策略，却没有配置ARCHIVE存储目录的情况下，系统会报错。
以上设置后，可以再查看是否符合预期。
（5）设置 lazy_persist 策略

hdfs storagepolicies -setStoragePolicy -path /hdfsdata -policy lazy_persist

结果如下：
[DatanodeInfoWithStorage[192.168.10.104:9866,DS-0b133854-7f9e-48df-939b-5ca6482c5afb,DISK], DatanodeInfoWithStorage[192.168.10.103:9866,DS-ca1bd3b9-d9a5-4101-9f92-3da5f1baa28b,DISK]]
原因可能如下：
1）当客户端所在的DataNode节点没有RAM_DISK时，则会写入客户端所在的DataNode节点的DISK磁盘，其余副本会写入其他节点的DISK磁盘。
2）当客户端所在的DataNode有RAM_DISK，但“dfs.datanode.max.locked.memory”参数值未设置或者设置过小（小于“dfs.block.size”参数值）时，则会写入客户端所在的DataNode节点的DISK磁盘，其余副本会写入其他节点的DISK磁盘。
一般系统不让设置策略在内存中，设置内存有诸多限制，HDFS系统和linux系统也要用到内存，一般不设置此策略。

六、HDFS故障排除

1、NameNode 故障处理

（1）如果只是单纯的进程挂了，可以直接重启NameNode即可

jps
kill -9 6075
hdfs --daemon start namenode

（2）如果是NameNode的数据损坏或者丢失了，则可以拷贝namesecondary里面的数据来恢复，或者给NameNode设置多目录来降低NameNode的数据损坏的概率

# 删除NameNode数据，模拟损坏
rm -rf /opt/module/hadoop-3.1.3/data/dfs/name/*
# 拷贝namesecondary数据到NameNode原先的目录下
scp -r atguigu@hadoop104:/opt/module/hadoop-3.1.3/data/dfs/namesecondary/* ./name/
# 重启NameNode
hdfs --daemon start namenode

2、集群安全模式

安全模式：文件系统只接受读数据请求，而不接受删除、修改等变更请求。

进入安全模式的场景：
NameNode在加载镜像文件和编辑日志期间处于安全模式；
NameNode再接收DataNode注册时，处于安全模式。

退出安全模式的条件：
（1）dfs.namenode.safemode.min.datanodes 最小可用的DataNode节点数据，默认是要大于0，至少存在一个DataNode可用，否则集群进入安全模式
（2）dfs.namenode.safemode.threshold-pct 副本数达到最小要求的Block占系统block数的百分比，默认只允许丢一个块，超过丢失2个块或以上，集群进入安全模式
（3）dfs.namenode.safemode.extension 系统稳定时间，30000毫秒，系统自启动之后默认30秒的安全模式，过后自动退出

安全模式命令：

bin/hdfs dfsadmin -safemode get 		#（功能描述：查看安全模式状态）
bin/hdfs dfsadmin -safemode enter		#（功能描述：进入安全模式状态）
bin/hdfs dfaadmin -safemode leave		#（功能描述：离开安全模式状态）
bin/hdfs dfsadmin -safemode wait		#（功能描述：等待安全模式状态）

数据损坏，当数据副本同时损坏或者纠删码超过数据恢复的数量单元损坏的情况下，集群无法启动，会进入安全模式，此时只能恢复副本或纠删码单元的数据，或者删除该副本的原文件，系统才能进入正常模式。
等待安全模式命令是在离开安全模式时，就会启动下面的程序，适用于在安全模式退出后立即执行的一些操作，如下在退出安全模式时，立即上传文件。
先进入安全模式：

bin/hdfs dfsadmin -safemode enter

创建并执行以下脚本：

vim safemode.sh
#!/bin/bash
hdfs dfsadmin -safemode wait
hdfs dfs -put /opt/module/hadoop-3.1.3/README.txt /
chmod 777 safemode.sh
./safemode.sh

另起一个窗口执行退出安全模式：

bin/hdfs dfsadmin -safemode leave

3、慢磁盘监控

慢磁盘就是在集群中存在一两个很慢，比较老化的磁盘，需要将其找出来，然后设置成归档模式的磁盘，避免有任务在上面运行，进而影响整个集群的效率。通常的现象有，在HDFS创建目录或者执行任务时，发现个别创建时间很慢，只是偶尔慢一下，就可能存在慢磁盘。
判断方法有：
（1）心跳判断
通过心跳的时间观察，一般的心跳设置为3秒，所有心跳的时间都是在0-2秒之间，如果有磁盘经常超过3秒，那该磁盘就可能老化比较慢了。
（2）fio 命令，测试磁盘的读写性能
fio 功能需要先安装，执行如下命令安装：

sudo yum install -y fio

测试顺序读：

sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r

测试顺序写：

sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_w

测试乱序读：

sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_randw

测试乱序写：

sudo fio -filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread -rw=randrw -rwmixread=70 -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=test_r_w -ioscheduler=noop

可以根据读写的速度判断慢磁盘的存在，进入将慢磁盘用于归档的文件。

4、小文件归档

HDFS中的小文件不仅会暂用NameNode的内存，每个文件大概需要150byte的内存，还会在MapTask按照文件数量来开启MapTask的并行度，造成资源的浪费。因次HDFS对小文件做了一些优化，就是将小文件归档存储，这样对NameNode而言，属于一个文件，但内部还是一个一个单独的文件，可以单独访问和使用。
（1）归档需要用到Yarn，因此前提是需要启动Yarn进程服务：

start-yarn.sh

（2）归档文件，将input目录下的文件归档到output目录下，归档后用名字input.har存储

hadoop archive -archiveName input.har -p /input /output

（3）文件查看，普通的查看只能看到生成的文件

hadoop fs -ls /output/input.har

查看里面的小文件需要加上har协议头查看

hadoop fs -ls har:///output/input.har

当需要使用里面的文件的时候，也是同样的加上协议头，将har里面的文件拷贝到根目录下

hadoop fs -cp har:///output/input.har/word.txt /

七、HDFS集群迁移

1、Apache和Apache之间的数据拷贝

在配置了SSH的情况下，可以用安全拷贝命令直接进行整个目录的拷贝。

# 将本地数据推送到103上面
scp -r /opt/module/hadoop-3.1.3 root@hadoop103:/opt/module/
# 把103上面的数据拉取到本地
scp -r root@hadoop103:/opt/module/hadoop-3.1.3  ./
# 将103的数据复制到104上面
scp -r root@hadoop103:/opt/module/hadoop-3.1.3 root@hadoop104:/opt/module/hadoop-3.1.3

在没有配置SSH的情况下，可以使用distcp命令实现Hadoop集群之间的递归数据复制：

bin/hadoop distcp hdfs://hadoop102:8020/opt/module/hadoop-3.1.3
hdfs://hadoop105:8020/opt/module/hadoop-3.1.3

八、MapReduce生产经验

1、MapReduce比较慢的原因

（1）计算机性能：CPU，内存，磁盘，网络
（2）I/O操作优化：数据倾斜，Map运行时间太长，导致Reduce等待时间太久，小文件太多等

2、Map调优

（1）自定义分区，减少数据倾斜，让每个节点尽量负载均衡
具体实现：定义Partitioner接口，重写getPartition方法
（2）减少溢写的次数
mapreduce.task.io.sort.mb 环形缓冲区大小默认是100M，可以提高到200M，
mapreduce.map.sort.spill,percent 环形缓冲区阈值默认是80%，可以提高到85%或者是90%
（3）增加Merge合并的次数
mapreduce.task.io.sort.factor 环形缓冲区之后数据量的合并，默认是10，可以提高到20个合并一次
（4）在不影响业务结果的前提条件下，可以提前采用Combinr合并
job.setCombinerClass(xxxReducer.class)
（5）为了减少IO，可以在Map端出来后采用压缩的方式
conf.setBoolean(“mapreduce.map.output.compress”,true);
conf.setClass(“mapreduce.map.output.compress.codec”,SnappyCodec.class,CompressionCodec.class);
（6）mapreduce.map.memory.mb 默认MapTask的内存上限是1024M
根据128M数据对应1G内存，可以相对应的调整内存的大小
（7）mapreduce.map.java.opts: 控制MapTask堆内存大小，也是可以适当调节
（8）mapreduce.map.cpu.vcores默认MapTask的CPU核数为1，计算密集型可以适当增加CPU的核数。
（9）mapreduce.map.maxattempts 每个MapTask最大重试次数，一旦重试次数超过该值，默认MapTask运行失败，默认是是4

3、Reduce调优

（1）mapreduce.reduce.shuffle.parallelcopies，每个Reduce去Map中拉取的数据的并行数，默认是5个，可以提高到10个
（2）mapreduce.reduce.shuffle.input.buffer.percent buffer大小占Reduce可用内存的比例，默认是0.7，可以按需要调整到0.8
（3）mapreduce.reduce.shuffle.merge.percent reduce中的数据达到多少比例，开始写入磁盘，默认是0.66，提高内存可以降低写入磁盘的次数，可以提高到0.75
（4）mapreduce.reduce.memory.mb 默认ReduceTask的内存上限是1024M，跟Map一样，按照128M数据对应1G内存做适当调整
（5）mapreduce.reduce.java.opts java当中控制的内存，需要跟上面的内存数据保持一致
（6）mapreduce.reduce.cpu.vcores CPU的核数，默认1个，可以根据需要适当调整
（7）mapreduce.reduce.maxattempts 最大任务重试次数，默认值为4
（8）mapreduce.job.reduce.slowstart.completedmaps 当完成MapTask的比例时，开启reduce资源，默认是0.05
（9）能不开启Reduce就不开启，因为Reduce需要开启shuffle等，耗费资源比较多。

4、数据倾斜

实际生产中最常发生的就是数据倾斜问题，数据频率倾斜就是某一个区域的数据量要远远大于其他区域，数据大小倾斜就是部分记录的大小远远大于平均值。
（1）首先检查是否空值过多造成的数据倾斜
生产环境，可以直接过滤掉空值；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
（2）能在map阶段提前处理，最好先在Map阶段处理。如：Combiner、MapJoin
（3）设置多个reduce个数

九、HDFS核心参数

1、常用的调优参数

（1）ResourceManager相关
yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量
yarn.resourcemanager.scheduler.class 配置调度器
（2）NodeManager相关
yarn.nodemanager.resource.memory-mb 配置NodeManager使用内存数
yarn.nodemanager.resource.system-reserved-memory-mb NodeManager为系统保留多少内存，和上一个参数二者取一即可
yarn.nodemanager.resource.cpu-vcores NodeManager使用CPU核数
yarn.nodemanager.resource.count-logical-processors-as-cores 是否将虚拟核数当作CPU核数
yarn.nodemanager.resource.pcores-vcores-multiplier 虚拟核数和物理核数乘数，例如：4核8线程，该参数就应设为2
yarn.nodemanager.resource.detect-hardware-capabilities 是否让yarn自己检测硬件进行配置
yarn.nodemanager.pmem-check-enabled 是否开启物理内存检查限制container
yarn.nodemanager.vmem-check-enabled 是否开启虚拟内存检查限制container
yarn.nodemanager.vmem-pmem-ratio 虚拟内存物理内存比例
（3）Container容器相关
yarn.scheduler.minimum-allocation-mb 容器最小内存
yarn.scheduler.maximum-allocation-mb 容器最大内存
yarn.scheduler.minimum-allocation-vcores 容器最小核数
yarn.scheduler.maximum-allocation-vcores 容器最大核数

十，Hadoop综合调优

1、小文件优化

小文件弊端：
（1）增加NameNode节点的内存消耗
（2）增加寻址的时间
（3）计算Map时，会开启过多的MapTask程序，消耗内存

小文件解决方案：
（1）数据采集方向，将小文件合成大文件再上传，源头确保数据不要太小
（2）存储方向，多个小文件，按照har归档的方式存储
（3）计算方向1，在开启MapTask程序时，使用CombineTextInputFormat将文件合并大的切片再执行
（4）计算方向2，开启uber模式，实现JVM重用，默认情况下，每个Task都需要一个JVM（java虚拟机）的环境来运行，如果Task的计算量很小，就可以多个JOB使用一个JVM，而不必每个JOB都使用一个虚拟机，造成资源的浪费。虚拟机的数量在运行程序的时候，可以在控制台看 Total Allocated Containers 的值。

uber模式设置：
（1）在配置文件 mapred-site.xml 中添加如下配置：

<!--  开启uber模式，默认关闭 -->
<property>
  	<name>mapreduce.job.ubertask.enable</name>
  	<value>true</value>
</property>

<!-- uber模式中最大的mapTask数量，可向下修改  --> 
<property>
  	<name>mapreduce.job.ubertask.maxmaps</name>
  	<value>9</value>
</property>

<!-- uber模式中最大的reduce数量，可向下修改 -->
<property>
  	<name>mapreduce.job.ubertask.maxreduces</name>
  	<value>1</value>
</property>

<!-- uber模式中最大的输入数据量，默认使用dfs.blocksize 的值，可向下修改 -->
<property>
  	<name>mapreduce.job.ubertask.maxbytes</name>
  	<value></value>
</property>

（2）分发配置

xsync mapred-site.xml

（3）再次运行程序即可

2、MapReduce性能测试

（1）使用RandomWriter来产生随机数，每个节点运行10个Map任务，每个Map产生大约1G大小的二进制随机数

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data

（2）执行Sort程序

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data

（3）验证数据是否真正排好序了

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data