【原创】支持模糊匹配站内全文检索的技术方案

本文链接：https://blog.csdn.net/heiyeshuwu/article/details/112582583

【原创】支持模糊匹配站内全文检索的技术方案

作者：黑夜路人（heiyeluren）

时间：2021/1/13

全文检索/全文搜索的问题场景：

比如说，有一个问题场景是这样的：

在计算机课程培训体系中，现在有个需求是实现根据用户输入关键字，搜索课程名称和课程简介进行匹配度计算的场景的问题，初步数据量不大。

大概是这样的：

使用场景：

【输入“mysql”关键字，可以匹配这些】：

mysql引擎innodb介绍（完全匹配）

mysql介绍（完全匹配）

正确使用MySQL（完全匹配）

sql优化（部分匹配，召回）

sq（放弃）

全文检索技术应用场景，还有比如搜索微信公众号的文章：

这些场景分析下来，这个是一个典型的依赖输入一个关键词，然后通过模糊匹配，把这个相关的文档或者文本内容做对应检索，按照权重输出结果的问题，这个就是典型的“全文检索/全文搜索”的一个技术问题场景，跟我们日常使用的站内搜索、全网索索本质需求是一样的，只是应用场景简单一些，因为数据量不大，所以对应解决方案也比较多一些，通过技术梳理，分享如下解决方案。

【方案1：纯自己编码实现简单全文检索方案】

推荐指数：☆☆☆☆

编程语言：Java/Golang/C++/Python

适用场景：数据量比较小，比如在十万级别，但是一般的KMP等字符串匹配算法无法满足，自己需要练练手快速实现全文检索。

a. 存储文档：把对应500标题构建成为一个字符串列表（可以是map/set之类容器结构，放到内存里，通过迭代器可以遍历）

b. 文档分词建立倒排：把这些标题进行分词（采用开源分词方法）存储到一个分词索引结构里，可以是倒排表或者就是一个粗暴的hashmap。（存储关系是词语与上面字符串组之间的关联关系）

c. 用户检索处理：用户输入词汇以后进行分词（采用开源分词库）检索b中是否有对应的词汇，如果有，按照权重把对应列表排序拉出来，再映射到a中的字符串列表提取出来。（这一步骤可以直接简单拉取可以，也可以采用 tf-idf 或者 bm25 算法计算方式，如果想偷懒，不采用这么复杂的方法也行）

d. 排序后输出：把上面对应权重结果列表排序输出结果，返回给调用应用。

开源推荐：

结巴分词（推荐）：https://github.com/fxsjy/jieba

结巴分词使用：https://www.jianshu.com/p/883c2171cdb5

LibMMSeg：https://www.oschina.net/p/libmmseg

SCWS分词：http://www.xunsearch.com/scws/index.php

TF-IDF算法：https://blog.csdn.net/zhb_bupt/article/details/40985831

【方案2：使用MySQL实现全文检索引擎】

推荐指数：☆☆☆

编程语言：无限制

适用场景：数据量中等，比如在千万规模，然后是MySQL为主的存储结构，可以考虑如下方式。

实现方式1：MySQL 5.7 + Ngram分词器

老版本MySQL的FULLINDEX是针对英文的全文检索，无法检索处理中文；在新版本之后，有新的分词算法，采用MySQL 5.7.22之后版本自带的Ngram全文解析器进行分词，采用SQL语句的MATCH...AGAINST语句完成全文检索。

不足：Ngram分词器的整个偏机械，没法做好的语义处理，不过也能够兼容一些比如MySQL里查找SQL这种场景。

参考文档1：https://www.cnblogs.com/xuey/p/11631102.html

参考文档2：https://blog.csdn.net/weixin_51686373/article/details/109773911

实现方式2：采用MySQL+IK分词器

在MySQL5.6以下，只有MyISAM引擎支持全文检索。在MySQL5.6以上Innodb引擎也提供支持全文检索。相应字段需要建立FULLTEXT索引。

MySQL5.7.6以下只支持英文全文索引，不支持中文全文索引，需要利用IK分词器把中文段落拆分成单词。对比方案1来说，分词更准确，并且不需要依赖于ES这种外部的解决方案。

不足：性能不高，并且只能针对小数据量。

实现方式3：MySQL+Sphinx引擎

主要是MySQL结合开源的检索引擎来实现；使用MySQL + Sphinx 方式做全文检索，使用mysql作为数据源，使用sphinx作为分词和存储检索引擎。

不足：相对来说安装部署麻烦一点，需要依赖于第三方引擎。

参考文档：https://blog.csdn.net/socho/article/details/52251177

【方案3：用MongoDB的全文检索引擎】

推荐指数：☆☆

编程语言：无限制

适用场景：数据量比较小，并且自己存储是采用MongoDB的方式，不需要做更多数据转存和处理的场景。

实现方式：

高版本的MongoDB 3.4版本以后支持部分中文检索，主要方式是Mongodb针对一个doc的字段进行创建全文检索索引，然后采用find来进行全文索引查找，可以按照相似度排序。

实现过程是用 db.create_index([("metaDataList.title",pymongo.TEXT)]) 建text全文索引，然后通过 db.find({ "$text": { "$search": "关键词" }},{ "score": { "$meta": "textScore" } }) 进行检索，可以通过textScore得到权重值后排序输出。

不足：中文支持不是很好，凑合用，数据量不要太大，不然性能会比较差，千万级以上数据查询时间可能会大于10秒，没法做复杂的权重排序处理。

参考文档1：https://www.jianshu.com/p/a3d763b29553

参考文档2：https://docs.mongoing.com/indexes/text-indexes

【方案4：采用Lucene/Elasticsearch或Xunsearch/Solr等第三方服务实现全文检索】

推荐指数：☆☆☆☆

编程语言：无限制

适用场景：数据量比较大，比如在千万或者亿级别的数据量，自己不想做开发，直接用现成的

实现方法：Elasticsearch是一个常用的日志或大数据存储的开源搜索引擎，底层检索引擎主要是采用Lucene进行的实现，所以二者可以单独使用，效果类似，可以自己本地搭建，安装配置稍微有点复杂。如果想要省事，可以使用第三方服务（比如阿里云）直接灌入数据，然后远程拉取数据结果等方式。（整个方案适合数据量偏大的场景）

不足：安装部署麻烦，需要灌数据再查询，还依赖于外部服务。

Lucene全文检索1：https://blog.csdn.net/zhang18024666607/article/details/78216635

Lucene全文检索2：https://zhuanlan.zhihu.com/p/73875797

ES入门教程：http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html

ES全文检索：https://www.cnblogs.com/softidea/p/6119362.html

阿里云ES服务：https://www.aliyun.com/product/bigdata/product/elasticsearch

阿里云检索服务：https://www.aliyun.com/product/opensearch

Xunsearch检索服务：http://xunsearch.com

Solr学习使用：https://www.cnblogs.com/yanduanduan/p/7344667.html