Hadoop
Gerry_RedBean
拥抱明天,做最好的自己......
展开
-
MapReduce前N个热度统计(TopN)
在Reduce阶段进行排序的时候,对每个相同的Key进行分组,然后缓存在TreeMap中,他可以自动按照对象的比较器进行排序, 最终输出前N个热门访问页面.1. 自定义序列化数据类型,并设定比较器package com.gerry.bigdata.mapreduce.top3;public class PageCount implements Comparable<PageCo...原创 2019-06-25 05:33:32 · 1765 阅读 · 0 评论 -
MapReduce的自定义分区(按照省份)
1. 自定义分区逻辑(例如按照省份)package com.gerry.bigdata.mapreduce.flowpartion;import java.util.HashMap;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;import com.gerry.bi...原创 2019-06-25 05:21:15 · 541 阅读 · 0 评论 -
MapReduce(全局排序)
主要分类两次MapReduce, 最后一次MapReduce 的ReduceTask需要设置为1个1. 自定义序列化数据类型package com.gerry.bigdata.mapreduce.pagecountsort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;...原创 2019-06-25 05:26:22 · 467 阅读 · 0 评论