HDFS集群压测
HDFS
的读写性能主要受网络和磁盘影响比较大。为了方便测试,将 hadoop102
、hadoop103
、hadoop104
虚拟机网络都设置为 100mbps
100Mbps
单位是 bit
;10M/s
单位是 byte
; 1byte=8bit
,100Mbps/8=12.5M/s
。
1. 测试HDFS写性能
-
测试内容:向
HDFS
集群写10
个128M
的文件hadoop jar /opt/module/hadoop3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-clientjobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
-
测试结果
Number of files
:生成mapTask
数量Total MBytes processed
:单个map
处理的文件大小Throughput mb/sec
:单个mapTak
的吞吐量Average IO rate mb/sec
::平均mapTak
的吞吐量IO rate std deviation
:方差、反映各个mapTask
处理的差值,越小越均衡
-
结果分析
由于副本 1 就在本地,所以该副本不参与测试。
- 一共参与测试的文件:10 个文件 * 2 个副本 = 20 个
- 压测后的速度:1.75
- 实测速度:1.75MB/s * 20 = 35MB/s
- 三台服务器的带宽:12.5 + 12.5 + 12.5 = 37.5MB/s
所有网络资源都已经用满。
如果实测速度远远小于网络,并且实测速度不能满足工作需求,可以考虑采用固态硬盘或者增加磁盘个数。
2. 测试HDFS读性能
-
测试内容:读取
HDFS
集群10
个128M
的文件hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
-
测试结果
-
结果分析
为什么读取文件速度大于网络带宽?由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。
-
删除测试生成数据
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean