调试集群的一些方法收集

1.
2.x中使用MapReduce JobHistory Server,端口号默认为19888,地址由参数mapreduce.jobhistory.webapp.address配置管理
使用命令mapred historyserver启动
2.
使用eclipse上传数据到集群时候,没有权限,需要在hdfs-site.xml添加 dfs.permissions 为false,最好也修改chown 。。。
3.
hadoop确定分组时,一般先将作为key的对象的HashCode和0x7FFFFFFF做与操作,因为一个对象的HashCode可以为负数,这样操作后可以保证它为一个正整数.然后以Hashtable的长度取模,得到值对象在Hashtable中的索引
4.
可以在mapred-site.xml,添加mapred.task.timeout属性,1800000 的值,增加等待时间
index = (o.hashCode() & 0x7FFFFFFF)%hs.length;
5.
单个shuffle能够消耗的内存占reduce所有内存的比例,默认值为0.25。那么降低mapreduce.reduce.shuffle.memory.limit.percentt这个参数应该可以使得程序选择OnDiskMapout而不是选择InMemory,调低至0.06再测试

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值