solr中文搜索倒排索引和数据存储结构

最新推荐文章于 2024-06-13 00:40:14 发布

hebeind100

最新推荐文章于 2024-06-13 00:40:14 发布

阅读量191

点赞数

分类专栏：技术总结搜索文章标签： solr 倒排索引数据存储结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hebeind100/article/details/84793293

版权

技术总结同时被 2 个专栏收录

677 篇文章 2 订阅

订阅专栏

62 篇文章 0 订阅

订阅专栏

传统的方式（正排索引）是从关键点出发，然后再通过关键点找到关键点代表的信息中能够满足搜索条件的特定信息，既通过KEY寻找VALUE。而Lucene的搜索则是采用了倒排索引的方式，即通过VALUE找KEY。而在中文全文搜索中VALUE就是我们要搜索的单词，存放所有单词的地方叫词典。KEY是文档标号列表（通过文档标号列表我们可以找到出现过要搜索单词VALUE的文档）

正排索引从文档编号找词：

倒排索引是从词找文档编号：

当文档数据来临时，solr会首先对文档数据进行分词，创建索引库和文档数据库。所谓的分词是指：将一段字符文本按照一定的规则分成若干个单词。如下面两篇文档通过solr后如何产生分词存储：

文章中的标点符号可以直接过滤掉，像and、too可以直接过滤掉。形成的分词表表示：

Lucene的倒排索引存储结构为：词项的字符串+词项的文档频率+记录词项的频率信息+记录词项的位置信息+跳跃偏移量。简单的理解可以形成以下结构:

分别表示词，词出现的文档编号，文档中出现的频率和文档中出现的位置。这样当我们对词进行搜索时，会找到该词出现过的所有文档的ID，然后再通过该文档的ID寻找文档的具体内容。

当然，Lucene词典中词的顺序是按照英文字母的顺序排列的，这样就可以采用压缩存储：假设有term，termagancy，termagant，termina四个词。每个字母需要1byte的空间，常规存储一共需要35byte。而压缩存储之后为："term4agancy8t4inal"，一共需要22byte，节省大量的空间。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。