1.
2.x中使用MapReduce JobHistory Server,端口号默认为19888,地址由参数mapreduce.jobhistory.webapp.address配置管理
使用命令mapred historyserver启动
2.
使用eclipse上传数据到集群时候,没有权限,需要在hdfs-site.xml添加 dfs.permissions 为false,最好也修改chown 。。。
3.
hadoop确定分组时,一般先将作为key的对象的HashCode和0x7FFFFFFF做与操作,因为一个对象的HashCode可以为负数,这样操作后可以保证它为一个正整数.然后以Hashtable的长度取模,得到值对象在Hashtable中的索引
4.
可以在mapred-site.xml,添加mapred.task.timeout属性,1800000
的值,增加等待时间
index = (o.hashCode() & 0x7FFFFFFF)%hs.length;
5.
单个shuffle能够消耗的内存占reduce所有内存的比例,默认值为0.25。那么降低mapreduce.reduce.shuffle.memory.limit.percentt这个参数应该可以使得程序选择OnDiskMapout而不是选择InMemory,调低至0.06再测试
调试集群的一些方法收集
最新推荐文章于 2023-08-30 19:01:37 发布