Hadoop
文章平均质量分 56
debug_myself
这个作者很懒,什么都没留下…
展开
-
Hadoop Capacity Scheduler配置与使用
Capacity Scheduler简介Capacity Scheduler支持以下特性:(1) 计算能力保证。支持多个队列,某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源,且所有提交到队列中的作业共享该队列中的资源。(2) 灵活性。空闲资源会被分配给那些未达到资源使用上限的队列,当某个未达到资源的队列需要资源时,一旦出现空闲资源资源,便会分配给他们。(3)原创 2013-04-19 09:46:41 · 1404 阅读 · 0 评论 -
MapReduce二次排序(secondary sort)实战
接触过mapreduce的同学都知道,为了将key值相同的record放在一起,分配给指定reducer,shuffle阶段会按照key值排序。然而在某些情况下,我们需要同时对value排序,A同学立马提出了如下解决方案:reduce的时候,将同一个key的所有value都存在一个list中,最后再进行排序,这个方案在数据量小时没有问题,可是reducer的内存是有限的,当数据规模很大时,原创 2017-03-18 19:05:45 · 2261 阅读 · 0 评论 -
Hadoop streaming mapreduce多文件输入使用方法
写Mapreduce程序时,常常会有同时处理多个输入文件的的需求,那么如何在map程序中方便的知道这一条record到底来自哪个文件呢?如果数据源是可控的,我们尚可以通过字段的个数等来判断,然而这不是一个优雅的方法,其实hadoop已经给了留了解决方法:在map端获取环境变量map_input_file(0.21.x的版本分支中是mapreduce_map_input_file)即为本次的输入文件原创 2017-03-18 19:36:03 · 8239 阅读 · 0 评论