倒排索引(Inverted Index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。
有两份数据:
mapreduce-4-1.txt
huangbo love xuzheng
huangxiaoming love baby huangxiaoming love yangmi
liangchaowei love liujialing
huangxiaoming xuzheng huangbo wangbaoqiang
mapreduce-4-2.txt
hello huangbo
hello xuzheng
hello huangxiaoming
编写 MapReduce 求出以下格式的结果数据:统计每个关键词在每个文档中当中的第几行出现了多少次
例如,huangxiaoming
关键词的格式:huangixaoming mapreduce-4-1.txt:2,2; mapreduce-4-1.txt:4,1;mapreduce-4-2.txt:3,1
以上答案的意义:
关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中的第 2 行出现了 2 次
关键词 huangxiaoming 在第一份文档 mapreduce-4-1.txt 中的第 4 行出现了 1 次
关键词 huangxiaoming 在第二份文档 mapreduce-4-2.txt 中的第 3 行出现了 1 次
解题思路:通过map的context的context.getInputSplit(),获取当前map读取的文件名字,关键词的个数统计就是Wordcount案例内容。关键点在于行数的统计,如果在Mapper内部类中使用全局变量,对于一个split文件可以,当文件较大时,设计并行处理,全局变量就没法使用。在此处可以通过改写源码,使用key值记录行数。
在mapper阶段,key值没有使用,它记录的是每次读取一行的偏移量,在源码LineRecordReader中修改key的取值即可:
具体做法:在src目录下建立package,包名为:org.apache.hadoop.mapreduce.lib.input,然后将整个LineRecordReader类复制到包里面:
代码修改:
1、添加全局变量 : private int num = 1;///设置行数
2、修改方法nextKeyValue中的key值,具体修改如下注释的地方,其他地方均不需修改。保存即可
public boolean nextKeyValue() throws IOException {
if (key == null) {
key = new LongWritable();
}
if (value == null) {
value = new Text();
}
int newSize = 0;
while (getFilePosition() <= end || in.needAdditionalRecordAfterSplit()) {
if (pos == 0) {
newSize = skipUtfByteOrder