MySQL全文检索临时代替ES实现快速搜索

引入

在MySQL 5.7.6之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分词器把中文段落预处理拆分成单词,然后存入数据库。
从MySQL 5.7.6开始,MySQL内置了ngram全文解析器,用来支持中文、日文、韩文分词。

全文索引只支持InnoDB和MyISAM引擎,支持的类型为CHAR、VARCHAR或者TEXT的字段上创建全文索引。

了解:什么是n-gram模型

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。
每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

MySQL分词配置

ngram就是一段文字里面连续的n个字的序列。ngram全文解析器能够对文本进行分词,每个单词是连续的n个字的序列。例如,用ngram全文解析器对“我是中国人”进行分词:

n=1: '我', '是', '中', '国','人' 
n=2: '我是', '中国', '人' 
n=3: '我是', '中国人' 
n=4: '我是中国人'

MySQL 中使用全局变量ngram_token_size来配置ngram中n的大小,它的取值范围是1到10,默认值是2。通常ngram_token_size设置为要查询的单词的最小字数。如果需要搜索单字,就要把ngram_token_size设置为1。在默认值是2的情况下,搜索单字是得不到任何结果的。因为中文单词最少是两个汉字,推荐使用默认值2。

全局变量ngram_token_size的两种设置方法:

  1. 启动mysqld命令时
mysqld --ngram_token_size=2
  1. 修改MySQL配置文件
[mysqld]

ngram_token_size=2
创建全文检索并分词
  1. 创建表的同时创建全文索引
CREATE TABLE `essay` (
  `essay_id` varchar(20) NOT NULL,
  `autoid` tinyint(20) NOT NULL COMMENT '序号',
  `essay_title` varchar(20) CHARACTER SET utf8 NOT NULL COMMENT '文章标题',
  `essay_details` varchar(255) NOT NULL COMMENT '文章内容',
  `essay_images` varchar(255) DEFAULT NULL COMMENT '文章图片地址',
  `user_id` varchar(20) NOT NULL COMMENT '用户id',
  `create_time` timestamp(6) NULL DEFAULT NULL COMMENT '创建时间',
  `update_time` timestamp(6) NULL DEFAULT NULL COMMENT '修改时间',
  PRIMARY KEY (`essay_id`),
  UNIQUE KEY `idx_cs_id` (`essay_id`),
  FULLTEXT KEY `idx_cs_index` (`essay_title`) /*!50100 WITH PARSER `ngram` */ 
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
  1. 通过 alter table 的方式来添加
ALTER TABLE essay ADD FULLTEXT INDEX idx_cs_index(essay_title) WITH PARSER ngram;
  1. 直接通过create index的方式
CREATE FULLTEXT INDEX idx_cs_index ON essay(essay_title) WITH PARSER ngram;
使用Navicat创建全文检索

在这里插入图片描述

SQL中使用全文检索

常用的全文检索模式有两种:

  1. 自然语言模式(NATURAL LANGUAGE MODE) ,
    自然语言模式是MySQL 默认的全文检索模式。自然语言模式不能使用操作符,不能指定关键词必须出现或者必须不能出现等复杂查询。
  2. BOOLEAN模式(BOOLEAN MODE)
    BOOLEAN模式可以使用操作符,可以支持指定关键词必须出现或者必须不能出现或者关键词的权重高还是低等复杂查询。
-- 简单使用
select id,essay_title,essay_details from essay
where match(essay_title) against('全文检索' IN NATURAL LANGUAGE MODE)
order by create_time desc
limit 200,20

-- 不指定模式,默认使用自然语言模式
select id,essay_title,essay_details from essay
where match(essay_title) against('全文检索')
order by create_time desc
limit 200,20

-- 搜索框提示查询
select id,match(essay_title) against('全文检索' IN NATURAL LANGUAGE MODE) as title from essay
order by create_time desc
limit 200,20

-- 使用BOOLEAN模式执行高级查询 必须包含"Java"
SELECT * FROM essay WHERE MATCH (essay_title) against('+Java' IN BOOLEAN MODE);

-- 使用BOOLEAN模式执行高级查询 必须包含"Java",但是不能包含"汇编"
SELECT * FROM essay WHERE MATCH (essay_title) against('+Java -汇编' IN BOOLEAN MODE);
BOOLEAN模式下运算符的使用方式:
'apple banana' 
无操作符,表示或,要么包含apple,要么包含banana
 
'+apple +juice'
必须同时包含两个词
 
'+apple macintosh'
必须包含apple,但是如果也包含macintosh的话,相关性会更高。
 
'+apple -macintosh'
必须包含apple,同时不能包含macintosh。
 
'+apple ~macintosh'
必须包含apple,但是如果也包含macintosh的话,相关性要比不包含macintosh的记录低。
 
'+apple +(>juice <pie)'
查询必须包含apple和juice或者apple和pie的记录,但是apple juice的相关性要比apple pie高。
 
'apple*'
查询包含以apple开头的单词的记录,如apple、apples、applet。
 
'"some words"'
使用双引号把要搜素的词括起来,效果类似于like '%some words%',

只能在类型为CHAR、VARCHAR或者TEXT的字段上创建全文索引。
全文索引只支持InnoDB和MyISAM引擎。
MATCH (columnName) AGAINST (‘keywords’)。MATCH()函数使用的字段名,必须要与创建全文索引时指定的字段名一致。如上面的示例,MATCH (title,body)使用的字段名与全文索引ft_articles(title,body)定义的字段名一致。如果要对title或者body字段分别进行查询,就需要在title和body字段上分别创建新的全文索引。
MATCH()函数使用的字段名只能是同一个表的字段,因为全文索引不能够跨多个表进行检索。
建议:如果要导入大数据集,数据初始化同步等需求时;建议先同步数据之后然后再创建全文索引,创建全文检索后导入很影响TPS的

全文检索与模糊查询效率对比

模糊查询结果
全文检索结果
第一张图是模糊查询的结果,第二张图是全文检索的结果

执行器解释查看

模糊查询结果
全文检索结果
可以看到最明显的区别,第一个没全文索引的语句最后的rows是2120,有全文检索的是1

explain解读

  1. type:ALL, index, range, ref, eq_ref, const, system, NULL(从左到右,性能从差到好)
  2. possible_keys:指出MySQL能使用哪个索引在表中找到记录,查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询使用
  3. key:表示MySQL实际决定使用的键(索引),如果没有选择索引,键是NULL。要想强制MySQL使用或忽视possible_keys列中的索引,在查询中使用FORCE INDEX、USE INDEX或者IGNORE INDEX。
  4. ref:表示选择 key 列上的索引,哪些列或常量被用于查找索引列上的值
  5. rows:根据表统计信息及索引选用情况,估算的找到所需的记录所需要读取的行数
  6. Extra
    a.Using temporary:表示MySQL需要使用临时表来存储结果集,常见于排序和分组查询
    b.Using filesort:MySQL中无法利用索引完成的排序操作称为“文件排序”
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MySQL全文检索是一种用于在文本数据中进行高效搜索的技术。在MySQL中,全文索引相关参数无法进行动态修改,只能通过修改配置文件来完成。你可以通过修改my.ini配置文件中的相关参数来调整全文检索的配置。比如,你可以通过设置innodb_ft_min_token_size和ft_min_word_len参数来修改最小搜索长度为1的配置。 在使用全文检索进行查询时,你需要使用match和against关键字。match中的列必须要与设置全文索引的列对应,而against中填写的是你要查询的内容。例如,你可以使用以下代码进行全文检索查询: SELECT * FROM emp WHERE MATCH(empName,empPass,empPhone) AGAINST('a'); 需要注意的是,全文检索主要应用于搜索引擎和大数据搜索等领域。在一般的数据库中,如小规模的数据库,通常不需要使用全文检索,普通的查询就能满足大部分需求。 使用MySQL进行全文检索的步骤如下: 1. 建立数据表。 2. 创建全文索引。可以使用ALTER TABLE语句来为表添加全文索引。 3. 进行全文检索查询。使用match和against关键字指定要查询的列和查询内容,执行相应的SQL语句即可。 在进行全文检索时,你还可以使用一些修饰符来自定义检索体的相关性,例如必须包含该词、必须不包含该词、提高词的相关性等。MySQL中常用的修饰符有必须包含该词(+)、必须不包含该词(-)、提高词的相关性(>)、降低词的相关性(<)和通配符(*)。更多解释可以参考相关资料进行学习。 综上所述,MySQL全文检索是一种用于在文本数据中进行高效搜索的技术,可以通过修改配置文件来调整相关参数,使用match和against关键字来进行查询,适用于搜索引擎和大数据搜索等场景。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值