Benchmark Job(hadoop测试)
在对本集群测试的过程中,我们用到了hadoop自带的测试函数,其中主要包括Teragen和Terasort两个方法。
Teragen
该方法是用来生成随机数据的,其触发指令为:
$hadoop jarxxx/xxx/benchmark.jar teragen -Dmapred.map.tasks=5 100000input_path 其中:
· teragen:为触发的方法名称
· -Dmapred.map.tasks:用来设置map任务的个数,默认值为2,即有两个map
· 100000:代表所要生成数据的行数,其中生成的数据形式为<key, cowid,value>的形式,一行数据即为一个<key, cowid, value>大小为100字节
· input_path:指定存放在hdfs中的位置
Terasort
该方法是用来对数据进行排序的,它可以用来对hadoop的数据处理能力进行有效的测试,