Hadoop benchmark测试及调参

本文介绍了使用Hadoop自带的Benchmark工具进行集群测试,包括Teragen数据生成和Terasort排序任务。详细解析了Teragen和Terasort的参数配置,并强调了YARN中调整MapReduce任务内存的重要性。
摘要由CSDN通过智能技术生成

Benchmark Job(hadoop测试)

    在对本集群测试的过程中,我们用到了hadoop自带的测试函数,其中主要包括TeragenTerasort两个方法。

Teragen

    该方法是用来生成随机数据的,其触发指令为:

                 $hadoop jarxxx/xxx/benchmark.jar teragen -Dmapred.map.tasks=5  100000input_path 其中:

·      teragen:为触发的方法名称

·      -Dmapred.map.tasks:用来设置map任务的个数,默认值为2,即有两个map

·      100000:代表所要生成数据的行数,其中生成的数据形式为<key, cowid,value>的形式,一行数据即为一个<key, cowid, value>大小为100字节

·      input_path:指定存放在hdfs中的位置

Terasort

    该方法是用来对数据进行排序的,它可以用来对hadoop的数据处理能力进行有效的测试,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值