简单了解全文检索

最新推荐文章于 2021-12-15 10:01:24 发布

镜中猹

最新推荐文章于 2021-12-15 10:01:24 发布

阅读量165

点赞数

本文链接：https://blog.csdn.net/weixin_41168674/article/details/94564943

版权

一些基础

在了解全文检索前需要了解一些基础。

数据

数据一般分为两类：
结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据（全文数据）：指不定长或无固定格式的数据，如邮件，word文档等。
（半结构化数据：如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。）

按照数据的分类，搜索也分为两种：
对结构化数据的搜索：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。
对非结构化数据的搜索：如利用windows的搜索也可以搜索文件内容，Linux下的grep命令，再如用Google和百度可以搜索大量内容数据。

对非结构化数据的搜索

主要有两种方法：
1、顺序扫描法 (Serial Scanning)：
比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。
举例：
windows的搜索功能。
这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。
2、全文检索：
即下面将具体介绍的方法。

全文检索

基本思路：将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。
上述重新组织过的信息即为索引。
这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search) 。
在这里插入图片描述
全文检索大体分两个过程，索引创建 (Indexing) 和搜索索引 (Search) 。
索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。
搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

索引

非结构化数据中所存储的信息是每个文件包含哪些字符串（已知文件，欲求字符串相对容易，也即是从文件到字符串的映射)。而我们想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即从字符串到文件的映射。两者恰恰相反。于是如果索引总能够保存从字符串到文件的映射，则会大大提高搜索速度。
由于从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为**倒排索引 **。

倒排索引

文档编号从1到100，得到下面的结构
在这里插入图片描述
e.g:我们要寻找既包含字符串“lucene”又包含字符串“solr”的文档，需要以下几步：

取出包含字符串“lucene”的文档链表。
取出包含字符串“solr”的文档链表。
通过合并链表，找出既包含“lucene”又包含“solr”的文件。

顺序扫描是每次都要扫描，而创建索引的过程仅仅需要一次，以后便是一劳永逸的了，每次搜索，创建索引的过程不必经过，仅仅搜索创建好的索引就可以了。
这也是全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。

镜中猹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单了解全文检索

一些基础在了解全文检索前需要了解一些基础。数据数据一般分为两类：结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据（全文数据）：指不定长或无固定格式的数据，如邮件，word文档等。（半结构化数据：如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。）按照数据的分类，搜索也分为两种：对结构化数据的搜索：如对数据库的搜...
复制链接

扫一扫