全文检索的基本过程

最新推荐文章于 2022-04-23 15:34:55 发布

gaowenming

最新推荐文章于 2022-04-23 15:34:55 发布

阅读量1.3k

点赞数

分类专栏：全文检索lucene 文章标签：全文检索文档 tokenize 语言 lucene token

本文链接：https://blog.csdn.net/gaowenming/article/details/5882653

版权

全文检索lucene 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

我们生活中的数据总体分为两种：结构化数据和非结构化数据。
• 结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
• 非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。
当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可
抽取出纯文本按非结构化数据来处理。
非结构化数据又一种叫法叫全文数据。
按照数据的分类，搜索也分为两种：
• 对结构化数据的搜索 ：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对
文件名，类型，修改时间进行搜索等。
• 对非结构化数据的搜索 ：如利用windows的搜索也可以搜索文件内容，Linux下的grep命令，再如用
Google和百度可以搜索大量内容数据

全文检索大体分两个过程，索引创建(Indexing)和搜索索引(Search) 。
• 索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。
• 搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

全文检索的索引创建过程一般有以下几步：

1：准备待索引的原文档（Document）

2：将原文档传给分次组件(Tokenizer)。
分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)：
1. 将文档分成一个一个单独的单词。
2. 去除标点符号。
3. 去除停词(Stop word)。

经过分词(Tokenizer)后得到的结果称为词元(Token)。

3：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

对于英语，语言处理组件(Linguistic Processor)一般做以下几点：
1. 变为小写(Lowercase)。
2. 将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。
3. 将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。

语言处理组件(linguistic processor)的结果称为词(Term)。

4：将得到的词(Term)传给索引组件(Indexer)。

索引组件(Indexer)主要做以下几件事情：
1. 利用得到的词(Term)创建一个字典。
2、对字典按字母顺序进行排序。

3. 合并相同的词(Term)成为文档倒排(Posting List)链表。

下面是lucene的原理过程

1. 索引过程：
1) 有一系列被索引文件
2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。
3) 经过索引创建形成词典和反向索引表。
4) 通过索引存储将索引写入硬盘。
2. 搜索过程：
a) 用户输入查询语句。
b) 对查询语句经过语法分析和语言分析得到一系列词(Term)。
c) 通过语法分析得到一个查询树。
d) 通过索引存储将索引读入到内存。
e) 利用查询树搜索索引，从而得到每个词(Term)的文档链表，对文档链表进行交，差，并得到结果文档。
f) 将搜索到的结果文档对查询的相关性进行排序。
g) 返回查询结果给用户。