第二章 HDFS—集群压测

最新推荐文章于 2023-05-26 15:36:12 发布

琉璃百般枯

最新推荐文章于 2023-05-26 15:36:12 发布

阅读量221

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_38358499/article/details/118252883

版权

hadoop 专栏收录该内容

25 篇文章 2 订阅

订阅专栏

HDFS 的读写性能主要受网络和磁盘影响比较大。为了方便测试，将 hadoop102、hadoop103、hadoop104 虚拟机网络都设置为 100mbps。100Mbps 单位是 bit；10M/s 单位是 byte ; 1byte=8bit，100Mbps/8=12.5M/s。

网速测试，在hadoop102机器上的/opt/module目录，创建一个：python -m SimpleHTTPServer

2.1 测试HDFS写性能

测试内容：向HDFS集群写10个128M的文件：hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

Number of files ：生成 mapTask 数量，一般是集群中（ CPU 核数 -1 ），我们测试虚拟机就按照实际的物理内存-1 分配即可
Total MBytes processed ：单个 map 处理的文件大小
Throughput mb/sec: 单个 mapTak 的吞吐量，计算方式：处理的总文件大小 / 每一个 mapTask 写数据的时间累加。集群整体吞吐量：生成 mapTask 数量 * 单个 mapTak 的吞吐量
Average IO rate mb/sec:: 平均 mapTak 的吞吐量。计算方式：每个 mapTask 处理文件大小 / 每一个 mapTask 写数据的时间，全部相加除以 task 数量
IO rate std deviation: 方差、反映各个 mapTask 处理的差值，越小越均衡
注意：nrFilesn 为生成 mapTask 的数量，生产环境一般可通过 hadoop103:8088 查看 CPU
核数，设置为（CPU 核数 - 1）

出现异常：

可以在 yarn-site.xml 中设置虚拟内存检测为 fals，分发配置并重启 Yarn 集群

    <!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是 true -->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>

测试写性能报错，原因是格式错误，文件大小单位应该是 MB

如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘
或者增加磁盘个数。

2.2 测试HDFS读性能

测试内容：读取HDFS集群10个128M的文件：hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
删除测试生成数据：hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

琉璃百般枯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
第二章 HDFS—集群压测

HDFS 的读写性能主要受网络和磁盘影响比较大。为了方便测试，将 hadoop102、hadoop103、hadoop104 虚拟机网络都设置为 100mbps。100Mbps 单位是 bit；10M/s 单位是 byte ; 1byte=8bit，100Mbps/8=12.5M/s。网速测试，在hadoop102机器上的/opt/module目录，创建一个：python -mSimpleHTTPServer 2.1 测试HDFS写性能测试内容：向HDFS集群写10...
复制链接

扫一扫