全文索引详解（基于InnoDB引擎）

耶宵夜

已于 2022-01-19 12:52:13 修改

阅读量1.5k

点赞数

分类专栏： MySQL 文章标签： mysql 数据库

于 2022-01-19 12:45:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OxOtn/article/details/122544532

版权

注：以下部分内容来自《MySQL技术内幕：InnoDB存储引擎》，以及我个人的一些理解和引申。如有侵权，请联系我删除，谢谢！

文章目录

一、为什么需要全文索引

二、全文索引

2.Inverted Index（倒排索引）

三、InnoDB的实现

1. Auxiliary Table（辅助表）

2. FTS Index Cache（全文检索索引缓存）

为什么是红黑树？

和Change Buffer对比

3. FTS Document ID

4. Stopword List

5. 其他限制

四、使用全文检索

Natural Language

Query Expansion

一、为什么需要全文索引

我们都知道，InnoDB中主要使用B+树作为索引（以及少量的哈希索引，主要是自适应哈希）。根据B+树的特点，我们可以在有索引的情况下，使用索引的前缀进行查找，例如，检索以“Covid”作为标题开头的疫情新闻：

SELECT * FROM news WHERE topic LIKE 'Covid%';

这是可以实现的。（注意，这里和索引的最左匹配原则没有关系。由于LIKE关键字，这里使用的是范围查询，而最左匹配原则在遇到范围查询时无效。）

然而当我们需要将查询的关键字不在字段的开头（更多情况下的确是这样），那么我们的B+树索引就无法奏效了，例如，检索标题包含“Covid”的疫情新闻：

SELECT * FROM news WHERE topic LIKE '%Covid%';

那么这时，就需要全文索引了。

二、全文索引

1.定义

书上是这样定义全文索引的：

全文索引（Full-Text Search）是将存储于数据库中的整本书或整篇文章中的任意内容信息查找出来的技术。它可以根据需要获得全文中有关章、节、段、句、词等信息，也可以进行各种分析和统计。

讲的很清楚。

2.Inverted Index（倒排索引）

之前一直听过倒排索引（比如ElasticSearch里面），读完书才发现，倒排索引实际上是全文索引的一种常见的实现。它的概念和B+树的索引是等级的。

倒排索引有两种具体的表现形式：

Inverted File Index，表现形式为（单词，单词所在文档ID）
Full Inverted Index，表现形式为（单词，（单词所在文档ID，具体位置））

可以看到，二者的差别主要是后者多存储了一个文档中的具体位置，虽然需要维护额外的存储空间，但也更方便我们迅速找到相应的具体段落。InnoDB中的实现也是基于后者的。

三、InnoDB的实现

InnoDB从1.2.x版本开始支持全文索引。

1. Auxiliary Table（辅助表）

作为索引，肯定需要空间进行存储。对于全文索引来说，存储索引的地方即是Auxiliary Table

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
全文索引详解（基于InnoDB引擎）

从为什么需要全文索引、全文索引简介、InnoDB中的实现、具体使用四个方面详细介绍了InnoDB中的全文索引
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。