lucene全文检索底层原理理解

qq_47537678

已于 2022-03-27 03:03:43 修改

阅读量605

点赞数 1

分类专栏：项目实训文章标签： java

于 2022-03-21 13:33:55 首次发布

本文链接：https://blog.csdn.net/qq_47537678/article/details/123633298

版权

项目实训专栏收录该内容

10 篇文章 0 订阅

订阅专栏

系列文章目录

（一）问答系统的文段检索
 （二）lucene全文检索底层原理理解
 （三）Lucene查询的底层实现IndexSearch（上）
（四）Lucene查询的底层实现IndexSearch（下）

前言

大体流程

索引过程
一系列被索引的文件
文件经过语法分析 和语言处理形成一系列词（Term）
索引创建 ----> 形成词典和反向索引表
索引存储 ----> 将索引写入磁盘
搜索过程
输出查询语句
查询语句经过语法分析和语言处理形成一系列词（Term）
语法分析 ----> 查询树
索引存储 ----> 索引读入内存
通过查询树搜索索引 ----> 词（Term）的文档链表，进行交差 ----> 结果文档
相关性排序 ----> 得到的结果文档和查询的相关性
返回查询结果给用户

反向索引

索引总能够保存从字符串到文件的映射，大大提高搜索速度。
从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为反向索引。
反向索引的所保存的信息一般如下：
假设我的文档集合里面有100篇文档，为了方便表示，我们为文档编号从1到100，得到下面的结构：
在这里插入图片描述

全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。
左边保存的是一系列字符串，称为词典。
每个字符串都指向包含此字符串的文档(Document)链表，此文档链表称为倒排表 (Posting List)。

举例：
比如说，我们要寻找既包含字符串“lucene”又包含字符串“solr”的文档，我们只需要以下几步：

取出包含字符串“lucene”的文档链表。
取出包含字符串“solr”的文档链表。
通过合并链表，找出既包含“lucene”又包含“solr”的文件。

创建索引

将被索引的原文档(Document)

在这里插入图片描述

分词(Tokenizer) -----> 词元（Token）

分词组件(Tokenizer)会做以下几件事情( 此过程称为Tokenize) ：

将文档分成一个一个单独的单词。
去除标点符号。
去除停词(Stop word) 。

经过分词(Tokenizer) 后得到的结果称为词元(Token) 。

原始文档：
在这里插入图片描述
分词结果：

语言处理(Linguistic Processor) ----> 词(Term)

语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。
对于英语，语言处理组件(Linguistic Processor) 一般做以下几点：

变为小写(Lowercase) 。
将单词缩减为词根形式，如“cars ”到“car ”等。这种操作称为：stemming 。
将单词转变为词根形式，如“drove ”到“drive ”等。这种操作称为：lemmatization 。

词(Term) ----> 索引组件(Indexer)

索引组件(Indexer)主要做以下几件事情：

词(Term) --> 创建一个字典

在这里插入图片描述

字典排序

按照字母顺序进行排序
在这里插入图片描述

合并相同的词(Term) —> 文档倒排(Posting List) 链表

在这里插入图片描述

Document Frequency 即文档频次，表示总共有多少文件包含此词(Term)。
Frequency 即词频率，表示此文件中包含了几个此词(Term)。
例如：对词(Term) “allow”来讲，总共有两篇文档包含此词(Term)，从而词(Term)后面的文档链表总共有两项，第一项表示包含“allow”的第一篇文档，即1号文档，此文档中，“allow”出现了2次，第二项表示包含“allow”的第二个文档，是2号文档，此文档中，“allow”出现了1次。

搜索索引

输入查询语句

查询语句 —> 词法分析，语法分析，及语言处理

词法分析

词法分析主要用来识别单词和关键字
上述例子中单词有lucene，learned，hadoop, 关键字有AND, NOT。

语法分析 —> 语法树

lucene AND learned NOT hadoop形成的语法树如下

在这里插入图片描述

语言处理

语言处理同索引过程中的语言处理几乎相同。
如learned变成learn等。
经过第二步，我们得到一棵经过语言处理的语法树。
在这里插入图片描述

搜索索引 ----> 符合语法树的结果文档集合

简而言之：根据关键词查询倒排表，进行交差运算得到最后的结果文档

结合上述列子步骤有分几小步：

首先，在反向索引表中，分别找出包含lucene，learn，hadoop的文档链表。
其次，对包含lucene，learn的链表进行合并操作，得到既包含lucene又包含learn的文档链表。
然后，将此链表与hadoop的文档链表进行差操作，去除包含hadoop的文档，从而得到既包含lucene又包含learn而且不包含hadoop的文档链表。
此文档链表就是我们要找的文档。

相关性排序（结合查询语句和结果文档的相似度）

把查询语句看作一片短小的文档，对文档与文档之间的相关性(relevance)进行打分(scoring)，分数高的相关性好，就应该排在前面。

计算权重

      影响一个词(Term)在一篇文档中的重要性主要有两个因素：
      Term Frequency (tf)：即此Term在此文档中出现了多少次。tf 越大说明越重要。
      Document Frequency (df)：即有多少文档包含次Term。df 越大说明越不重要。

向量空间模型算法（VSM）

判断Term之间的关系从而得到文档相关性的过程
把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算。

把所有此文档中词(term)的权重(term weight) 看作一个向量

Document = {term1, term2, …… ,term N}
Document Vector = {weight1, weight2, …… ,weight N}

把查询语句看作一个简单的文档，也用向量进行表示

Query = {term1, term 2, …… , term N}
Query Vector = {weight1, weight2,…… , weight N}

把所有搜索出的文档向量及查询向量放到一个N维空间中，每个词(term)是一维。
在这里插入图片描述

在这里插入图片描述
于是文档二相关性最高，先返回，其次是文档一，最后是文档三。

到此为止，便可以找到最想要的文档。

参考链接: Lucene学习总结之一：全文检索的基本原理.

qq_47537678

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene全文检索底层原理理解

系列文章目录（一）问答系统的文段检索（二）lucene全文检索底层原理理解文章目录系列文章目录前言反向索引创建索引将被索引的原文档(Document)分词(Tokenizer) -----> 词元（Token）语言处理(Linguistic Processor) ----> 词(Term)词(Term) ----> 索引组件(Indexer)词(Term) --> 创建一个字典字典排序合并相同的词(Term) ---> 文档倒排(Posting List) 链表
复制链接

扫一扫