MapReduce案例12——倒序索引

本文介绍了如何使用MapReduce创建倒排索引,详细解析了处理过程,包括统计每个关键词在每个文档中的行数,并提供了源码修改方法,通过调整LineRecordReader中的key值来记录行号。
摘要由CSDN通过智能技术生成

倒排索引(Inverted Index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

有两份数据:

mapreduce-4-1.txt

huangbo love xuzheng
huangxiaoming love baby huangxiaoming love yangmi
liangchaowei love liujialing
huangxiaoming xuzheng huangbo wangbaoqiang

mapreduce-4-2.txt

hello huangbo
hello xuzheng
hello huangxiaoming

编写 MapReduce 求出以下格式的结果数据:统计每个关键词在每个文档中当中的第几行出现了多少次

例如,huangxiaoming 

关键词的格式:huangixaoming mapreduce-4-1.txt:2,2; mapreduce-4-1.txt:4,1;mapreduce-4-2.txt:3,1

以上答案的意义:

关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中的第 2 行出现了 2 次

关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中的第 4 行出现了 1 次

关键词 huangxiaoming 在第二份文档 mapreduce-4-2.txt 中的第 3 行出现了 1 次

解题思路:通过map的context的context.getInputSplit(),获取当前map读取的文件名字,关键词的个数统计就是Wordcount案例内容。关键点在于行数的统计,如果在Mapper内部类中使用全局变量,对于一个split文件可以,当文件较大时,设计并行处理,全局变量就没法使用。在此处可以通过改写源码,使用key值记录行数。

在mapper阶段,key值没有使用,它记录的是每次读取一行的偏移量,在源码LineRecordReader中修改key的取值即可:

具体做法:在src目录下建立package,包名为:org.apache.hadoop.mapreduce.lib.input,然后将整个LineRecordReader类复制到包里面:

代码修改:

1、添加全局变量 : private int num = 1;///设置行数

2、修改方法nextKeyValue中的key值,具体修改如下注释的地方,其他地方均不需修改。保存即可

public boolean nextKeyValue() throws IOException {
    if (key == null) {
      key = new LongWritable();
    }
    if (value == null) {
      value = new Text();
    }
    int newSize = 0;
    while (getFilePosition() <= end || in.needAdditionalRecordAfterSplit()) {
      if (pos == 0) {
        newSize = skipUtfByteOrder
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值