[lucene]倒排笔记

lucene的倒排算法相关笔记:

·计算文章中关键字出现的位置以及出现频率,以便于精准定位。

·百度的定义:用记录的非主属性查找记录而组织的文件,叫倒排文件,或者 倒排索引,次索引

·lucene不使用B树,按照字母排序,所以使用二分法快速定位,效率高。

·lucene 有字典文件,频率文件,位置文件,其中字典文件保存有指向频率文件和位置文件的指针,可以以此找到频率信息和坐标信息。

·索引结构:

【关键字】 【文章号】/【出现频率】 【出现位置】

 

出现频率即出现次数;

出现位置从1开始计数,是当前文章的所有关键字的顺序计数的数字,出现多次以此排列展示位置,如 1,3,7 多个文件也一样,如第一个文章中出现2次分别 2,4,第二篇文章出现1次 2,则位置为:2,2,4。以此排列。

 

索引文件采用压缩,压缩格式 <前缀长度,后缀> ,前一个是 阿拉伯,后一个是阿拉伯语,压缩后后面一个是 <3,语>

数字压缩仅记录与前面数字的差值。

 

仅此简单记录一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值