MapReduce
静谧之心
专业摩的佬
业余吉他手
退役喷子
展开
-
MapReduce 配置多路输出模式 (MultipleOutputs)
在setup()里配置多路输出器: public static class AppLogDataCleanMapper extends Mapper<LongWritable, Text, Text, NullWritable> { Text k; NullWritable v; SimpleDateFormat sdf; ...原创 2019-10-30 11:07:06 · 627 阅读 · 0 评论 -
MapReduce 之 Grouping Comparator 分析
MapReduce 通过 这个类来判断 key是否相同 (可以归为同一reduce的一次reduce运算)这个类可以用来分担Reducer任务量, 比如:排序 根据key排序——重写CompareTo()将本质上不同的对象, 按照人类思考解决问题方便归为一类,例如 订单bean 在reducer看来是不同的对象, 因为引用地址不同, 这时我们就要重写mapreduce的 Grouping...原创 2019-09-25 07:34:00 · 1752 阅读 · 0 评论 -
MR数据倾斜解决方案2------随机数
通过产生随机数(范围是reducerNum) 并将其拼接到key上 可以让partitioner 均匀的将本质为同一个key 分发到不同的reducer. 再通过二次MR聚合 解决大部分情况下的数据倾斜...原创 2019-09-25 07:38:21 · 2105 阅读 · 0 评论 -
MR数据倾斜解决方案---------Combiner局部聚合
其实Combiner和reducer性质一样 就是相当于在Mapper计算的末端局部聚合了一次 如果逻辑符合的话 甚至可以将普通的reducer设置为Combiner 因为它们都继承自同一个类 Reducer.class...原创 2019-09-25 07:42:48 · 525 阅读 · 0 评论