分布式搜索引擎入门（一）

最新推荐文章于 2022-07-26 21:00:36 发布

__Forever__

最新推荐文章于 2022-07-26 21:00:36 发布

阅读量210

点赞数

分类专栏： JAVA知识点复习-消息队列

本文链接：https://blog.csdn.net/qq_16118409/article/details/99942467

版权

JAVA知识点复习-消息队列专栏收录该内容

15 篇文章 1 订阅

订阅专栏

Lucene介绍与入门使用

我们生活中的数据总体分为两种：结构化数据和非结构化数据。

（1）结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
（2）非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件。

1.结构化数据查询方法：

数据库中的搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。
为什么数据库搜索很容易？
因为数据库中的数据存储是有规律的，有行有列而且数据格式、数据长度都是固定的。

2.非结构化数据查询方法：

（1）顺序扫描法(Serial Scanning)

所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。

（2）全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。
例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。
虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。
Lucene实现全文检索的流程

在这里插入图片描述

1.绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库：

确定原始内容即要搜索的内容→采集文档→创建文档→分析文档→索引文档

2.红色表示搜索过程，从索引库中搜索内容，搜索过程包括：

用户通过搜索界面→创建查询→执行搜索，从索引库搜索→渲染搜索结果

（1）创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。
（2）传统方法是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描方法，数据量大、搜索慢。
（3）倒排索引结构是根据内容（词语）找文档。

倒排索引结构也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

1.顺序扫描法(Seria-lScanning)：

比如你要查一个字符串“spring”，这个方法就是在每一个文档里从头到尾的搜索，无论有没有找到都去下一个文档，找到了就都是我们需要的文档，这种方法非常费时，windows的搜索就是使用这个，这个方法对于文档不多，还是比较好的，但是文档一旦多了，就非常慢。

2.全文检索(Full-text-Search)：

**就是先建立一个索引，再对索引进行检索。**通常，可以把这个方法想象成字典，你比如查找一个“飞”，肯定是先查找fei这个拼音，再到对应的页数去找这个字，如果没有索引，你就需要使用顺序扫描法，从头到尾的查找字典，直到找到为止。

在这里插入图片描述

二、全文检索的原理

第一步：一些要索引的原文档(Document)。

第二步：将原文档传给分次组件(Tokenizer)。

分词组件(Tokenizer)会做以下几件事情( 此过程称为Tokenize) ：

1. 将文档分成一个一个单独的单词。
2. 去除标点符号。
3. 去除停词(Stop word) 。

所谓停词(Stop word)就是一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小。

英语中停词(Stop word)如：“the”,“a”，“this”等。

对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。

第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。

对于英语，语言处理组件(Linguistic Processor) 一般做以下几点：

变为小写(Lowercase) 。
将单词缩减为词根形式，如“cars ”到“car ”等。这种操作称为：stemming 。
将单词转变为词根形式，如“drove ”到“drive ”等。这种操作称为：lemmatization 。

第四步：将得到的词(Term)传给索引组件(Indexer)。

利用得到的词(Term)创建一个字典。
对字典按字母顺序进行排序。
合并相同的词(Term) 成为文档倒排(Posting List) 链表。

三、如何对索引进行搜索？

第一步：用户输入查询语句。

第二步：对查询语句进行词法分析，语法分析，及语言处理。

词法分析主要用来识别单词和关键字。
语法分析主要是根据查询语句的语法规则来形成一棵语法树。
语言处理同索引过程中的语言处理几乎相同。

第三步：搜索索引，得到符合语法树的文档。

第四步：根据得到的文档和查询语句的相关性，对结果进行排序。

4、全文搜索属于最常见的需求，开源的 Elasticsearch （以下简称 Elastic）是目前全文搜索引擎的首选。

它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。

参考：
1、https://blog.csdn.net/RebelHero/article/details/80191133

__Forever__

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分布式搜索引擎入门（一）

Lucene介绍与入门使用我们生活中的数据总体分为两种：结构化数据和非结构化数据。（1）结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。（2）非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件。1.结构化数据查询方法：数据库中的搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。为什么数据库搜索很容易？因为数据库中...
复制链接

扫一扫