map
lingzihan1215
这个作者很懒,什么都没留下…
展开
-
mapred.map.tasks 如何影响map的个数
且具体到底产生多少个分片(split) 因为多少个map 是有关系。(此处是根据新的API来分析,因为新的API 终究要调用到就得API来做具体的动作) 可能会说这个值 是系统根据文件大小 和根据文件分片大小 算出来的,那具体是如何算出来的呢,我们根据源码 一步一步来分析 首先Job.submit() public void submit() throws IOException, Int转载 2013-04-01 11:13:25 · 628 阅读 · 0 评论 -
Hadoop中map数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是: goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} splitSize = max (minSize, min(goalSize, dfs.block.si转载 2013-04-01 11:03:45 · 610 阅读 · 0 评论 -
hadoop中每个节点map和reduce个数的设置调优
map red.tasktracker.map.tasks.maximum 这个是一个task tracker中可同时执行的map的最大个数,默认值为2,看《pro hadoop》:it is common to set this value to the effective number of CPUs on the node 把Job分割成map和reduce 合理地转载 2013-03-20 11:35:54 · 824 阅读 · 0 评论 -
map/reduce 过程的认识
map/reduce 过程的认识 最初我一直简单的以为map的工作就是将数据打散,而reduce就是将map打散后的数据合并。虽然之前跑过wordcount的例子,但之前只是对输出reduce最终的结果感兴趣,对控制台打印的日志信息完全不懂。这几天我们团队在探索pagerank,才开始对map/reduce有了深一层的了解。当一个job提交后,后续具体的一系列分配调度工作我现在转载 2013-04-02 17:50:12 · 724 阅读 · 0 评论