MR基础案例(二)倒排索引

文本文档
三个文件:index.html,hadoop.html,spark.html
每个文件里有一些单词

index.html : hadoop hadoop hadoop hadoop index bigdata
hadoop.html : hadoop hadoop is nice nice best 
spark.html : spark is best best best 

结果集
排序单词,在单词后罗列出现次数最多的网页,也要排序

best : spark.html:3;hadoop.html:1;
hadoop : index.html:4;hadoop.html:2;
...

实现思路:

  1. 先将数据分片,获取文件名做为key,value设为1计数
  2. 将每行按空格拆分,拆出单词与文件名拼接成“index.html_hadoop”形式做为键值
  3. 自定义combine类,拆分键值,形成“index.html:3”形式作为value输出,hadoop单词作为key
  4. 在reduce阶段,定义treemap,实现comparator接口,实现value按value.value排序,最后将结果拼接成"hadoop:index:3;"形式;

SortDev.java

package MR;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.*;


public class SortRev {
   

    //自定义的mapper类
    public static class MyMapper extends Mapper<Object, Text, Text, Text> {
   
        public Text k = new Text();
        public Text v = new Text("1");
        /**
         * 抽象map函数   (map阶段的核心业务逻辑)
         */
        @Override
        protected void map(Object key, Text value,Context context) throws IOException, InterruptedException {
   
            //获取文件名称
            InputSplit is = context.getInputSplit();
            String filename = (
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值