Hadoop
文章平均质量分 80
月貘苏
女工程师一枚 目前专注于JVM性能监控工具开发
展开
-
hadoop mapreduce 解决 top K问题
hadoop mapreduce 解决 top K问题网上搜索到的那个top K问题的解法,我觉得有些地方都没有讲明白。因为我们要找出top K, 那么就应该显式的指明the num of reduce tasks is one. 不然我还真不好理解为什么可以得到top K的结果。这里顺便提及一下,一个map task就是一个进程。有几个map task就有几个中间文件,有几个re转载 2013-04-01 11:09:44 · 2304 阅读 · 0 评论 -
Hadoop 的 TotalOrderPartitioner
http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ Partition所处的位置patition类结构1. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。2. HashPartitioner是转载 2013-04-01 10:14:43 · 1338 阅读 · 0 评论 -
Hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行me转载 2013-04-01 10:24:37 · 1451 阅读 · 2 评论 -
Hadoop中的DistributedCache
1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息,同时也可以将第三方包添加到其classpath路径中去。Hadoop会将缓存数据分发到集群的所有准备启动的转载 2013-04-01 10:28:02 · 1087 阅读 · 0 评论