Hadoop下进行反向索引(Inverted Index)操作

原创 2011年01月07日 19:26:00

参考资料:
代码参考1:http://www.pudn.com/downloads212/sourcecode/unix_linux/detail999273.html
理论参考2:http://zhangyu8374.javaeye.com/blog/86307,http://nything.javaeye.com/blog/411787

在eclipse下创建map/reduce项目InvertedIndex,然后将参考1中的src目录拷贝到项目目录下替换原有src目录。

在本地创建文件夹IndexTest并在里面创建3个文件,每个文件中的内容如下。
    * T0 = "it is what it is"
    * T1 = "what is it"
    * T2 = "it is a banana"
其中T0,T1,T2分别是文件名,后面为文件内容。将IndexTest文件夹上传到DFS中。然后运行反向索引程序。

最后输出结果为:
a     (T2, 3)
banana     (T2, 4)
is     (T2, 2) (T0, 2) (T0, 5) (T1, 2)
it     (T1, 3) (T2, 1) (T0, 1) (T0, 4)
what     (T0, 3) (T1, 1)

 

代码清单:
InvertedIndex.java

 

TokenInputFormat.java

 

ValuePair.java

 

 

正排索引(forward index)与倒排索引(inverted index)

一、正排索引(前向索引) 正排索引也称为"前向索引"。它是创建倒排索引的基础,具有以下字段。 (1)LocalId字段(表中简称"Lid"):表示一个文档的局部编号。 (2)WordId字段:表...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年01月08日 11:53
  • 6264

Inverted Index(倒排索引)

传统的正排索引指的是doc->word的映射,然而在实际工作中,仅仅只有正排索引是远远不够的,比如我想知道某个word出现在那些doc当中,就需要遍历所有的doc,这在实时性要求比较严的系统中是不能接...
  • Dream_angel_Z
  • Dream_angel_Z
  • 2016年07月30日 22:03
  • 1399

Lucene Inverted index(倒排索引)原来快速入门

Lucene是一个高性能的JAVA全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 设有两篇文章1和2:文章1的内容为:Tom lives in Guangzhou, I...
  • jackyrongvip
  • jackyrongvip
  • 2013年07月01日 17:14
  • 748

倒排索引Inverted index相关程序(多种语言版本)

Inverted index An Inverted Index is a data structure used to create full text search. Given a s...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年01月07日 12:36
  • 1421

mapreduce——invertedindex

三个输入文件分别时3/2/2行: hadoop@ubuntu:/usr/local/hadoop$ hdfs dfs -cat input/* hadoop mapreduce spark ...
  • mmc2015
  • mmc2015
  • 2015年09月20日 20:32
  • 1168

spark【例子】倒排索引(InvertedIndex)

例子描述: 【倒排索引(InvertedIndex)】 这个例子是在一本讲Spark书中看到的,但是样例代码写的太Java化,没有函数式编程风格,于是问了些高手,教我写了份函数式的倒排索引...
  • sysmedia
  • sysmedia
  • 2017年04月11日 11:23
  • 474

MapReduce功能实现十---倒排索引(Inverted Index)

前言:"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是...
  • m0_37739193
  • m0_37739193
  • 2017年08月02日 10:59
  • 879

反向索引(Inverted Index)

反向索引是一种索引结构,它存储了单词与单词自身在一个或多个文档中所在位置之间的映射。反向索引通常利用关联数组实现。它拥有两种表现形式: inverted file index,其表现形式为 {单...
  • naivebaby
  • naivebaby
  • 2006年10月30日 19:50
  • 1482

搜索引擎中的倒排索引(inverted index)机制

Abstract This chapter presents a survey of the various structures (techniques) that can be used in ...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年01月08日 11:53
  • 1056

Inverted Multi-Index

Inverted Multi-Index简介Inverted Multi-index是Artem Babenko 和 Victor Lempitsky发表的一篇论文,论文起初发表在CVPR2012上,...
  • zijin0802034
  • zijin0802034
  • 2016年09月14日 23:13
  • 802
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop下进行反向索引(Inverted Index)操作
举报原因:
原因补充:

(最多只允许输入30个字)