倒排算法实现

转载 2007年10月13日 10:44:00
 转自http://blog.iyi.cn/rimen/2006/01/

倒排索引技术主要应用与全文检索,通过对非主关键字的分析,建立内容与PK之间的关键。通过索引文件
存储后提供给应用高效的检索。
如果需要自己定制倒排索引器,算法应该实现如下的步骤:

1.信息分析,对输入的数据项或者记录(P,K)中的K做一个过滤的词法和语法分析。
主要对数据中非主关键字内容K进行分词,过滤,分析等获得一个内容关键字(k1,k2,k3....)集合
2.建立倒排关系,倒排所有和一般索引区别主要利用内容中的关键字建立和主关键字P的关系
这样把数据向(P,K)分割成一个倒排关系集合(k1,p),(k2,p),(k3,p)....
3.建立倒排索引,有了上面的一系列的关系后,你可好把k1,k2看成主关键字,建立多k到pn的索引集合,形成(k1,(p1,p2,p3,....)),(k2,(p1,p2,p3,....))。
4.索引存储,把所有关键字k的索引集合用一种统一的数据结构存储.
5.优化机制.一般内存K形成的关键较大,这样形成索引集合比较大,一般需要加入一下优化处理的机制.例如压缩技术.这可以参考Lucence的实现(把关键词压缩为<前缀长度,后缀)

6.[可选]应用接口.你实现了上述的算法,还必须提供一套接口(API)给应用程序使用.

倒排索引构建算法BSBI和SPIMI

参考文献: http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html http://blog.csdn.n...
  • qq_26562641
  • qq_26562641
  • 2015年12月17日 16:35
  • 1168

倒排索引构建算法BSBI和SPIMI

参考文献: http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html http://blog.csdn.n...
  • qq_26562641
  • qq_26562641
  • 2015年12月17日 16:35
  • 1168

信息检索笔记-文档平分,词项权重计算

给定一个布尔查询,返回的结果要么满足条件,要么不满足条件,结果很多的时候就不太对了,应该按照文档的重要性排序后呈现给用户。     本文引入简单的几种权重计算。 域索引权重计算      我们知道...
  • u010064842
  • u010064842
  • 2013年10月03日 16:52
  • 2147

信息检索导论-第七章 一个完整搜索系统中的评分计算

第七章 一个完整搜索系统中的评分计算 7.1 快速评分及排序 之前我们讲的都是给定查询后,精确返回前K篇得分最高的文档的方法。这里,我们主要关注产生“可能”排名最高的K篇文档的方法。这样的目的在于...
  • u010772289
  • u010772289
  • 2018年01月11日 17:19
  • 62

倒排索引构建算法BSBI和SPIMI

参考文献: http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html http://blog.csdn.net/v...
  • Androidlushangderen
  • Androidlushangderen
  • 2015年04月05日 18:50
  • 2768

倒排索引原理和实现

倒排索引原理和实现 关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档。怎么快速找到包含某个关键...
  • u011239443
  • u011239443
  • 2017年03月06日 22:17
  • 1004

信息检索导论——六、文档评分、词项权重计算及向量空间模型

参数化索引及域索引 迄今为止,我们都将文档看成一系列词项的序列.实际上,大多数文档都具有额外的结构信息.数字文档通常会把与之相关的元数据(metadata)以机读的方式一起编码.所谓元数据,指的...
  • u013952285
  • u013952285
  • 2016年07月11日 17:00
  • 819

推荐系统-利用用户行为数据

用户的行为数据介绍:      用户的行为主要分为两种-显性反馈行为 和 隐性反馈行为 ,显性反馈行为主要包括 评分 和喜欢/不喜欢 ,youtube最早是使用是使用五分评价系统的,但是只有用户很不...
  • ivysister
  • ivysister
  • 2016年05月10日 15:57
  • 5645

倒排索引之布尔查询模型

布尔检索模型:接受布尔表达式查询,即通过AND、OR及NOT等逻辑操作符将词项连接起来的查询,在该模型下,每篇文档只被看成是一系列词的集合。 查询模式一: term1  AND  term2,此模式较...
  • zqq1216
  • zqq1216
  • 2014年03月12日 15:22
  • 1056

权重算法实现

需求:广告按权重展现 基本算法描述如下: 1、每个广告增加权重 2、将所有匹配广告的权重相加sum, 3、以相加结果为随机数的种子,生成1~sum之间的随机数rd 4、.接着遍历所有广告...
  • wzh200x
  • wzh200x
  • 2014年07月12日 00:08
  • 1386
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:倒排算法实现
举报原因:
原因补充:

(最多只允许输入30个字)