MySQL模糊查询再也不用like+%了

2401_83601703

于 2024-03-30 20:50:44 发布

阅读量774

点赞数 21

分类专栏：程序员文章标签： mysql django 数据库

本文链接：https://blog.csdn.net/2401_83601703/article/details/137182771

版权

程序员专栏收录该内容

519 篇文章 3 订阅

订阅专栏

本文介绍了MySQL全文检索的内部工作机制，比较了基于索引查询和相关性排序的区别，着重讲解了InnoDB存储引擎的全文检索特点，包括停用词处理和字符长度限制。同时讨论了布尔搜索模式的使用方法，展示了如何通过布尔操作符进行更精确的查询优化。

摘要由CSDN通过智能技术生成

SELECT

count(IF(MATCH ( title, body )

against ( ‘MySQL’ ), 1, NULL )) AS count

FROM

fts_articles;

复制代码

上述两种语句虽然得到的结果是一样的，但从内部运行来看，第二句SQL的执行速度更快些，因为第一句SQL（基于where索引查询的方式）还需要进行相关性的排序统计，而第二种方式是不需要的。

还可以通过SQL语句查询相关性：

SELECT

MATCH ( title, body ) against ( ‘MySQL’ ) AS Relevance

FROM

fts_articles;

复制代码

相关性的计算依据以下四个条件：

word 是否在文档中出现
word 在文档中出现的次数
word 在索引列中的数量
多少个文档包含该 word

对于 InnoDB 存储引擎的全文检索，还需要考虑以下的因素：

查询的 word 在 stopword 列中，忽略该字符串的查询
查询的 word 的字符长度是否在区间 [innodb_ft_min_token_size,innodb_ft_max_token_size] 内

如果词在 stopword 中，则不对该词进行查询，如对 ‘for’ 这个词进行查询，结果如下所示：

SELECT

MATCH ( title, body ) against ( ‘for’ ) AS Relevance

FROM

fts_articles;

复制代码

可以看到，'for’虽然在文档 2，4中出现，但由于其是 stopword ,故其相关性为0

参数 innodb_ft_min_token_size 和 innodb_ft_max_token_size 控制 InnoDB 引擎查询字符的长度，当长度小于 innodb_ft_min_token_size 或者长度大于 innodb_ft_max_token_size 时，会忽略该词的搜索。在 InnoDB 引擎中，参数 innodb_ft_min_token_size 的默认值是3，innodb_ft_max_token_size的默认值是84

Boolean

布尔搜索使用特殊查询语言的规则来解释搜索字符串，该字符串包含要搜索的词，它还可以包含指定要求的运算符，例如匹配行中必须存在或不存在某个词，或者它的权重应高于或低于通常情况。例如，下面的语句要求查询有字符串"Pease"但没有"hot"的文档，其中+和-分别表示单词必须存在，或者一定不存在。

select * from fts_test where MATCH(content) AGAINST(‘+Pease -hot’ IN BOOLEAN MODE);

复制代码

Boolean 全文检索支持的类型包括：

+：表示该 word 必须存在
-：表示该 word 必须不存在
(no operator)表示该 word 是可选的，但是如果出现，其相关性会更高
@distance表示查询的多个单词之间的距离是否在 distance 之内，distance 的单位是字节，这种全文检索的查询也称为 Proximity Search，如 MATCH(context) AGAINST('"Pease hot"@30' IN BOOLEAN MODE)语句表示字符串 Pease 和 hot 之间的距离需在30字节内
>：表示出现该单词时增加相关性
<：表示出现该单词时降低相关性
~：表示允许出现该单词，但出现时相关性为负
* ：表示以该单词开头的单词，如 lik*,表示可以是 lik，like，likes
" ：表示短语