Lucene01--倒排索引思想

Lucene01--倒排索引思想

1、 倒排索引的概念:

首先对数据按列拆分存储,然后对文档中的数据分词,对词条进行索引,并记录词条在文档中出现的位置。这样查找时只要找到了词条,就找到了对应的文档。概括来讲是先找到词条,然后看看哪些文档包含这些词条。

 

1.1 文档(Document):

索引库中的每一条原始数据,例如一个网页信息,一件商品信息。

1.2 词条:

原始数据按照算法进行分词,得到的每一个词。

 

2、 创建倒排索引流程

2.1 获得文档:比如要存储文章

2.2 创建文档列表

首先将数据按列进行拆分存储,类似于mysql的表存储,每一条数据,就是一个文档,形成文档列表。

假设文章有编号(docId)、标题(title)、内容(content)、评分(score)。每一条数据就是一篇文章。

 

2.3 创建倒排索引列表

然后对文档中的数据根据分词规则经常分词,得到词条。对词条进行编号,并以词条创建索引。然后记录下包含该词条的所有文档编号(以及其它信息)。

比如按照title字段进行分词

ID   词典   词所对应的文档id     词所对应的字段(域)

1        我的   123         title

2     祖国   1            title

3       家乡    2            title

4       女友      3            title

 

整体流程如下

 

3、 搜索流程

3.1 当用户输入任意的搜索关键词时,首先对用户输入的内容进行词拆分,得到要搜索的所有词条,比如用户根据标题搜索“我的老友”,拆分后就是“我的”、“老友”

3.2 然后拿着这些拆分后的词去倒排索引列表中进行匹配。找到这些词对应的所有文档编号。

3.3 最后根据这些编号去文档列表中找到文档

 

 

4、 索引库

一个索引:一张文档列表 + 一张倒排索引表。

创建索引的流程也就是创建倒排索引的流程。

 

5、 什么是Lucene

如果理解了倒排索引思想,我们再来看看到底什么是Lucene

Lucene是一个基于java开发全文检索工具包。

5.1 全文检索

5.1.1 定义1:全文检索是利用倒排索引技术对需要搜索的数据进行处理,然后提供快速匹配的技术。

5.1.2 定义2:先创建索引然后对索引进行搜索的过程,就是全文检索。

 

欢迎评论!

转载于:https://www.cnblogs.com/yuanke-blog/p/11211326.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值