搜索系统2：倒排索引

最新推荐文章于 2024-08-08 09:04:06 发布

中中_软件工程师

最新推荐文章于 2024-08-08 09:04:06 发布

阅读量298

点赞数

分类专栏： arduino

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/koolfret/article/details/77751068

版权

arduino 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

倒排索引可以说是lucene的核心，也就是我介绍的搜索系统的核心。所有数据的存储都是用的这种结构。例如需要索引的文档如下：

对于上面的每行文档的txt字段，都可能被搜索。那么lucene是怎么做的呢？首先使用中文分词将文档切成单词序列(terms),lucene会给每个单词一个编号，同时记录那些文档包含了这个词。比如：养生这个词编号为1，那么倒排列表为{1,4}。根据中文分词的不同可能分出来的词不同，可能最后形成这样的文件（省略了很多词）:

当然真正的索引文件比这个复杂些，它还会记录tf(词频),idf(文档频率),position(单词位置 )等。

tf:该词在本文档中出现了几次。
idf:该词在全部文档中的多个个文档出现过。
position:该词在本文档的那些位置出现过。

关于这几个值在后面查询按相关度排序时都会用到。但是在电商行业并不一定会用到，比如tf,不能说商家把作品的名称里多放几个"养生",用户搜"养生"时这个作品就排到最前面吧？所以不能按lucene默认的排序方式来排序，需要定制各行业特有的相关性计算公式。这个后面再聊。

有很多人推荐查看索引的工具luke,个人认为这并不好用，看不出太多有用的信息。

知道了倒排索引，我们再把它与mysql的常用索引结构b-tree与hash相比就知道为什么数据库干不了这活了。这两索引结构天生就不支持查字段中的一部分词，要查就是全部遍历。当然mysql也可以用全文索引，我没用过这，但想想应该比较复杂，mysql怎么支持分词呢？

好了，在了解了基本结构后，后面再分析查询会容易得多。

中中_软件工程师

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。