lucene 索引文件的结构

最新推荐文章于 2023-10-05 08:00:00 发布

weixin_34217773

最新推荐文章于 2023-10-05 08:00:00 发布

阅读量367

点赞数

文章标签： python

原文链接：https://my.oschina.net/kdy1994/blog/3006591

版权

2019独角兽企业重金招聘Python工程师标准>>>

Lucene 的索引结构是有层次结构的，主要分以下几个层次：

1、索引（index）

Lucene 索引指的是文件夹下的所有文件

2、段（Segment）

一个索引包含了多个段，每个段都是独立的，添加索引时会产生新的段，不同段可以合并

3、文档（Document）

文档存储在段中，新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到
同一个段中。

4、域（Field）

域指的是文档中的字段，不同域的索引方式可以不同，即不同字段类型

6、词（Trem）

词是索引的最小单位，是经过词法分析和语言处理后的字符串。

Lucene 的索引结构中，即保存了正向信息，也保存了反向信息。

按层次保存了从索引，一直到词的包含关系：

索引(Index) –> 段(segment) –> 文档(Document) –> 域(Field) –> 词(Term)

包含正向信息的文件有

segments_N 保存了此索引包含多少个段，每个段包含多少篇文档。
XXX.fnm 保存了此段包含了多少个域，每个域的名称及索引方式。
XXX.fdx，XXX.fdt 保存了此段包含的所有文档，每篇文档包含了多少域，每个域保存了那些信息。
XXX.tvx，XXX.tvd，XXX.tvf 保存了此段包含多少文档，每篇文档包含了多少域，每个域包含了多少词，每个词的字符串，位置等信息。

包含反向信息的文件有

保存了词典到倒排表的映射：词(Term) –> 文档(Document)
包含反向信息的文件有：

XXX.tis，XXX.tii 保存了词典(Term Dictionary)，也即此段包含的所有的词按字典顺序的排序。

XXX.frq 保存了倒排表，也即包含每个词的文档ID 列表。

XXX.prx 保存了倒排表中每个词在包含此词的文档中的位置。

转载于:https://my.oschina.net/kdy1994/blog/3006591

weixin_34217773

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
lucene 索引文件的结构

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

weixin_34217773 CSDN认证博客专家 CSDN认证企业博客

码龄8年

152: 原创

-: 周排名

114万+: 总排名

128万+: 访问

: 等级

7423: 积分

5237: 粉丝

239: 获赞

18: 评论

1154: 收藏

私信

关注

热门文章

最新评论

YouCompleteMe unavailable : requires Vim 7.4.143
凡。。。296: YouCompleteMe unavailable: requires Vim 8.1.2269+. 咋办
如果虚函数在基类与子类名字相同，而参数类型不同不会进行迟后联编
嘻·嘻: 那个，如果test函数中，先是float调用b.fn(float)再调用bn(int)，会输出in subclass 吗
[Winfrom]Cefsharp配置与初始化
weixin_43386952: 博主您好，我也在用winform内嵌cefsharp作为浏览器跳转网站，但是发现了一个难题，就是首次加载页面的时候特别慢，加载过一次后的其他加载就正常了，这个您知道是如何引起的吗？应该如何避免呢？
希望相对路径关于background-image:url()在样式表里设置后有不管用的办法
Artemis711: 如果img和css是两个同级文件夹，在css/css1.css里设样式的时候,图片是位于css1.css的上一级文件夹,所以要“../”返回到上一级文件夹
希望相对路径关于background-image:url()在样式表里设置后有不管用的办法
Artemis711: 同问，我现在也是遇到这个问题，书上background：url（）可以设相对路径，博主知道答案了嘛？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。