lucene的倒排算法相关笔记:
·计算文章中关键字出现的位置以及出现频率,以便于精准定位。
·百度的定义:用记录的非主属性查找记录而组织的文件,叫倒排文件,或者 倒排索引,次索引
·lucene不使用B树,按照字母排序,所以使用二分法快速定位,效率高。
·lucene 有字典文件,频率文件,位置文件,其中字典文件保存有指向频率文件和位置文件的指针,可以以此找到频率信息和坐标信息。
·索引结构:
【关键字】 【文章号】/【出现频率】 【出现位置】
出现频率即出现次数;
出现位置从1开始计数,是当前文章的所有关键字的顺序计数的数字,出现多次以此排列展示位置,如 1,3,7 多个文件也一样,如第一个文章中出现2次分别 2,4,第二篇文章出现1次 2,则位置为:2,2,4。以此排列。
索引文件采用压缩,压缩格式 <前缀长度,后缀> ,前一个是 阿拉伯,后一个是阿拉伯语,压缩后后面一个是 <3,语>
数字压缩仅记录与前面数字的差值。
仅此简单记录一下。