倒排算法实现

转载 2007年10月13日 10:44:00
 转自http://blog.iyi.cn/rimen/2006/01/

倒排索引技术主要应用与全文检索,通过对非主关键字的分析,建立内容与PK之间的关键。通过索引文件
存储后提供给应用高效的检索。
如果需要自己定制倒排索引器,算法应该实现如下的步骤:

1.信息分析,对输入的数据项或者记录(P,K)中的K做一个过滤的词法和语法分析。
主要对数据中非主关键字内容K进行分词,过滤,分析等获得一个内容关键字(k1,k2,k3....)集合
2.建立倒排关系,倒排所有和一般索引区别主要利用内容中的关键字建立和主关键字P的关系
这样把数据向(P,K)分割成一个倒排关系集合(k1,p),(k2,p),(k3,p)....
3.建立倒排索引,有了上面的一系列的关系后,你可好把k1,k2看成主关键字,建立多k到pn的索引集合,形成(k1,(p1,p2,p3,....)),(k2,(p1,p2,p3,....))。
4.索引存储,把所有关键字k的索引集合用一种统一的数据结构存储.
5.优化机制.一般内存K形成的关键较大,这样形成索引集合比较大,一般需要加入一下优化处理的机制.例如压缩技术.这可以参考Lucence的实现(把关键词压缩为<前缀长度,后缀)

6.[可选]应用接口.你实现了上述的算法,还必须提供一套接口(API)给应用程序使用.

信息检索导论——四、索引构建

1、硬件基础 2、基于块的排序索引方法 3、内存式单遍扫描索引构建算法 4、分布式索引构建 5、动态索引构建 6、安全性和排序式检索中的索引问题...
  • u013952285
  • u013952285
  • 2016-07-07 20:23:53
  • 654

倒排索引构建算法SPIMI(已实现,修订版)

信息检索导论中提到的倒排索引构建方法:                                 内存式单遍扫描索引构建方法(SPIMI : Single-pass in-memeory in...
  • caigen1988
  • caigen1988
  • 2012-07-04 15:05:42
  • 10461

搜索引擎入门 --- 倒排索引算法

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值 和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(in...
  • u012965373
  • u012965373
  • 2014-09-07 10:48:12
  • 2053

倒排索引构建算法BSBI和SPIMI

参考文献: http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html http://blog.csdn.net/v...
  • Androidlushangderen
  • Androidlushangderen
  • 2015-04-05 18:50:10
  • 3055

基于跳表指针(skip points)的倒排记录表(postings lists)合并算法

public class skip { public static void main(String args[]) {//////////初始化两个数组a,b,相当于两个倒排表 int a[]={2...
  • iamubbTing
  • iamubbTing
  • 2016-04-28 11:21:33
  • 937

布尔检索及其查询优化

针对布尔查询的检索,布尔查询是指利用AND,OR或者NOT操作符将词项连接起来的查询。         举个简单的例子:莎士比亚的哪部剧本包含Brutus及Caesar 但是不包含Calpurnia?...
  • qll125596718
  • qll125596718
  • 2012-12-26 02:29:40
  • 8273

Lucene 合并倒排表算法之并集

上一篇中讲到lucene在合并倒排表时候的交集算法操作.本文继续对倒排表求并集的算法:lucene处理交集时采用的数据结构是一个倒排表的数组,数组的元素是一个个的迭代器来表现每个倒排表.而在求并集的时...
  • ToBeAndNotToBe
  • ToBeAndNotToBe
  • 2010-09-25 13:39:00
  • 2518

倒排索引之布尔查询模型

布尔检索模型:接受布尔表达式查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来的查询,在该模型下,每篇文档只被看成是一系列词的集合。 查询模式一: term1  AND  term2,此模式较...
  • zqq1216
  • zqq1216
  • 2014-03-12 15:22:53
  • 1119

【索引算法】倒排索引

倒排索引 1.简介 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置...
  • woshishui6501
  • woshishui6501
  • 2016-08-10 18:26:15
  • 3166

倒排算法实现

 转自http://blog.iyi.cn/rimen/2006/01/倒排索引技术主要应用与全文检索,通过对非主关键字的分析,建立内容与PK之间的关键。通过索引文件 存储后提供给应用高效的检索。 如...
  • fuyangchang
  • fuyangchang
  • 2007-10-13 10:44:00
  • 1684
收藏助手
不良信息举报
您举报文章:倒排算法实现
举报原因:
原因补充:

(最多只允许输入30个字)