全文检索引擎(二)---为何入坑

本篇主要介绍为何选用全文检索引擎,以及它的优势。

在介绍全文检索引擎之前,先来介绍下什么是搜索引擎。

搜索引擎

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。例如:百度、google等。

全文检索引擎

全文检索引擎是搜索引擎的一种,主要采用全文检索的方式进行搜索。全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据。

为什么使用全文检索引擎呢?

全文搜索引擎胜在快速和高效的查询大批量非结构化的文本记录,并且返回这些基于用于搜索匹配的结果文档,他们可以根据具体的数值或者字段去进行快速高效的排序、分类等。一个系统的全文搜索功能应该是丰富并且灵活的,并且还需要支持基本关键字的查询:互联网式+/-语法,布尔运算符的使用,有限的真实或伪自然语言处理,邻近操作,查找类似等。

    结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。

    非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。
复制代码

全文搜索系统的最优功能可以归纳如下:

1、子秒搜索结果指出哪些文件可能在数百万或数十亿的用户搜索中包含一个或多个术语(单词,数字等)。

2、丰富灵活的文本查询工具和复杂的排名功能,以找到最好的文档/记录。

3、添加,删除或更新文档/记录的基本功能。

4、存储数据的基本功能(而不是简单的索引和搜索)。 并不是所有的全文搜索系统都支持这种功能,但大多数都包括Lucene / Solr。

什么时候使用全文检索引擎呢?

1、大量的自由结构的文本数据(或包含此类数据的记录)要搜索。

2、支持大量基于交互式文本的查询。

3、需求非常灵活的全文搜索查询。

4、对高度相关的搜索结果的需求未被可用的关系数据库所满足。

5、对不同记录类型,非文本数据操作或安全事务处理的需求相对较少。

参考:全文搜索引擎 vs DBMS

总结

全文搜索引擎能满足项目的需求,因此决定采用。

下一篇将介绍全文检索的原理,分析为什么能快速找到我们想要找到的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值