基于 Mysql 实现一个简易版搜索引擎

最新推荐文章于 2024-06-12 11:19:59 发布

靓仔聊编程

最新推荐文章于 2024-06-12 11:19:59 发布

阅读量313

点赞数 1

分类专栏：随笔文章标签： mysql 搜索引擎

本文链接：https://blog.csdn.net/claredai/article/details/119977192

版权

前言前段时间，因为项目需求，需要根据关键词搜索聊天记录，这不就是一个搜索引擎的功能吗？于是我第一时间想到的就是 ElasticSearch 分布式搜索引擎，但是由于一些原因，公司的服务器资源比较紧张，没有额外的机器去部署一套 ElasticSearch 服务，而且上线时间也比较紧张，数据量也不大，然后就想到了 Mysql 的全文索引。简介其实 Mysql 很早就支持全文索引了，只不过一直只支持英文的检索，从5.7.6 版本开始，Mysql 就内置了 ngram 全文解析器，用来支持中文、日文、韩文分

摘要由CSDN通过智能技术生成

前言

前段时间，因为项目需求，需要根据关键词搜索聊天记录，这不就是一个搜索引擎的功能吗？
于是我第一时间想到的就是 ElasticSearch 分布式搜索引擎，但是由于一些原因，公司的服务器资源比较紧张，没有额外的机器去部署一套 ElasticSearch 服务，而且上线时间也比较紧张，数据量也不大，然后就想到了 Mysql 的全文索引。

简介

其实 Mysql 很早就支持全文索引了，只不过一直只支持英文的检索，从5.7.6 版本开始，Mysql 就内置了 ngram 全文解析器，用来支持中文、日文、韩文分词。

Mysql 全文索引采用的是倒排索引的原理，在倒排索引中关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

本文测试，基于 Mysql 8.0 版本，数据库引擎采用的是 InnoDB

ngram 全文解析器

ngram 就是一段文字里面连续的 n 个字的序列。ngram 全文解析器能够对文本进行分词，每个单词是连续的 n 个字的序列。例如，用 ngram 全文解析器对“你好靓仔”进行分词:

n=1: '你', '好', '靓', '仔' 
n=2: '你好', '好靓', '靓仔' 
n=3: '你好靓', '好靓仔' 
n=4: '你好靓仔'

MySQL 中使用全局变量 ngram_token_size 来配置 ngram 中 n 的大小，它的取值范围是1到10，默认值是 2。通常 ngram_token_size 设置为要查询的单词的最小字数。如果需要搜索单字，就要把 ngram_token_size 设置为 1。在默认值是 2 的情况下，搜索单字是得不到任何结果的。因为中文单词最少是两个汉字，推荐使用默认值 2。

可以通过以下命令查看 Mysql 默认的 ngram_token_size 大小：

show variables like 'ngram_token_size'

▲ 查询结果

有两种方式可以设置全局变量 ngram_token_size 的值&#

最低0.47元/天解锁文章

靓仔聊编程

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于 Mysql 实现一个简易版搜索引擎

前言前段时间，因为项目需求，需要根据关键词搜索聊天记录，这不就是一个搜索引擎的功能吗？于是我第一时间想到的就是 ElasticSearch 分布式搜索引擎，但是由于一些原因，公司的服务器资源比较紧张，没有额外的机器去部署一套 ElasticSearch 服务，而且上线时间也比较紧张，数据量也不大，然后就想到了 Mysql 的全文索引。简介其实 Mysql 很早就支持全文索引了，只不过一直只支持英文的检索，从5.7.6 版本开始，Mysql 就内置了 ngram 全文解析器，用来支持中文、日文、韩文分
复制链接

扫一扫