MapReduce经典案例—倒排索引
案例分析
1. 倒排索引介绍 倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排 索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据 内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(Inverted File)。
MapReduce经典案例
2. 案例需求及分析 现假设有三个源文件file1.txt、file2.txt和file3.txt,需要使用倒排索引的方式 对这三个源文件内容实现倒排索引,并将最后的倒排索引文件输出。
MapReduce经典案例—倒排索引
案例分析
2. 案例需求及分析 首先,使用默认的TextInputFormat类对每个输入文件进行处理,得到文本 中每行的偏移量及其内容。Map过程首先分析输入的键值对,经 过处理可以得到倒排索引中需要的三个信息:单词、文档名称和词频。