要进行基准测试,首先启动hdfs和yarn:
bin/start-dfs.sh;
bin/start-yarn.sh;
一. TestDFSIO HDFS上的IO性能测试;
1. 写性能
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-tests.jar TestDFSIO -write -nrFiles 3 -fileSize 2048
其中 -write 表示测试写性能;
-nrFiles 指定要测试的文件个数(一般一个文件一个map,实验表明文件数等于datanode节点数时,测试效果最好);
-fileSize 指定每个文件的大小;
2. 读性能
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.2.0-tests.jar TestDFSIO -read -nrFiles 3 -fileSize 2048
意义同上,这是测试写的性能,一般来说读的吞吐要好于写的吞吐几倍。
二. Sort 测试MapReduce System的整体性能;
这个过程分三步:A-产生随机数;B-排序;C-验证结果。
1. 产生随机数;
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter random-data
2. 排序;
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar sort random-data sorted-data
3. 验证结果;
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar tsort random-data sorted-data
此命令 一直未执行成功。