MySQL学习笔记：索引2

山鬼谣me

已于 2022-11-11 11:34:52 修改

阅读量451

点赞数

分类专栏： MySQL 文章标签：学习数据库

于 2022-11-07 11:25:42 首次发布

本文链接：https://blog.csdn.net/u013066244/article/details/127686155

版权

MySQL 专栏收录该内容

22 篇文章 3 订阅

订阅专栏

序言

《MySQL45讲》

change buffer

下文中说的更新：insert和update操作。

当需要更新一个数据页时，如果数据页在内存中就直接更新，而如果这个数据页还没有在内存中的话，在不影响数据一致性的前提下，InnoDB 会将这些更新操作缓存在 change buffer 中，这样就不需要从磁盘中读入这个数据页了。在下次查询需要访问这个数据页的时候，将数据页读入内存，然后执行 change buffer 中与这个页有关的操作。

需要说明的是，虽然名字叫作 change buffer，实际上它是可以持久化的数据。也就是说，change buffer 在内存中有拷贝，也会被写入到磁盘上。

将 change buffer 中的操作应用到原数据页，得到最新结果的过程称为 merge。除了访问这个数据页会触发 merge 外，系统有后台线程会定期 merge。在数据库正常关闭（shutdown）的过程中，也会执行 merge 操作。

显然，如果能够将更新操作先记录在 change buffer，减少读磁盘，语句的执行速度会得到明显的提升。而且，数据读入内存是需要占用 buffer pool 的，所以这种方式还能够避免占用内存，提高内存利用率。

change buffer使用场景

基于上面的特性：写多读少的业务来说，页面在写完以后马上被访问到的概率比较小，此时 change buffer 的使用效果最好。这种业务模型常见的就是账单类、日志类的系统。

反过来，假设一个业务的更新模式是写入之后马上会做查询，那么即使满足了条件，将更新先记录在 change buffer，但之后由于马上要访问这个数据页，会立即触发 merge 过程。这样随机访问 IO 的次数不会减少，反而增加了 change buffer 的维护代价。所以，对于这种业务模式来说，change buffer 反而起到了副作用。

普通索引和唯一索引的区别？

查询操作上，两种效率相当。由于唯一索引需要判断是否唯一，可能性能稍次些，不过可以忽略不计。

更新操作上，因为有change buffer的存在。所以普通索引在更新时，如果数据页在内存，那么就直接更新，不在，那就缓存到change buffer中。而唯一索引因为需要判断是否唯一，不在内存的数据是一定要加载进内存的，所以无法使用change buffer的。
因此，在更新的效率上面，普通索引要好于唯一索引。

change buffer 和 redo log区别？

简单地对比这两个机制在提升更新性能上的收益的话，redo log 主要节省的是随机写磁盘的 IO 消耗（转成顺序写），而 change buffer 主要节省的则是随机读磁盘的 IO 消耗。

Q：上面这句话怎么理解呢？
A：redo：一般是更新操作时，会产生redo，所以redo log里面记录的数据越多，那么写磁盘时，就越有利，因为是顺序写。change buffer也是缓存更新操作，不过它除了减少随机写的问题之外，还可以减少随机读。

MySQL索引选错的案例

建立一个简单表，里面有个字段a。并且对a字段建立了索引。
插入10万条数据。
执行：explain select * from t where a between 10000 and 20000; 查看执行计划，会发现选择了a索引。
接着开启两个事务A，事务B。事务A先开启，start transaction with consistent snapshot。
事务B中，先删除表中全部数据，然后再插入10万条数据，id和之前一样。
在事务B中，执行：explain select * from t where a between 10000 and 20000; 查看执行计划，会发现不再走a索引，走的是全表扫描。如果我们强制指定a索引：explain select * from t force index(a) where a between 10000 and 20000;会发现执行时间更快。
这就说明MySQL自己选错索引了。

影响索引选择的因素有：扫描行锁、是否使用临时表、是否排序、回表等因素的综合考虑。

扫描行数判断

MySQL 在真正开始执行语句之前，并不能精确地知道满足这个条件的记录有多少条，而只能根据统计信息来估算记录数。
统计信息就是索引的“区分度”。显然，一个索引上不同的值越多，这个索引的区分度就越好。而一个索引上不同的值的个数，我们称之为“基数”（cardinality）。也就是说，这个基数越大，索引的区分度越好。

由于不能全表一行一行的统计，所以需要采样统计。
采样统计的时候，InnoDB 默认会选择 N 个数据页，统计这些页面上的不同值，得到一个平均值，然后乘以这个索引的页面数，就得到了这个索引的基数。

所以采用统计的结果是会影响索引的选择的。

# 可以重新统计索引信息
analyze table t 命令

上述案例中，索引选错的原因：事务A开启后的情况下，事务B先删除数据，后插入数据。但是删除不是立马删除，只是标记deleted并且事务A的存在，所以undo中的数据也不会删除。所以当在事务B中再次插入数据时，此时每一行数据都有两个版本。
这就导致采样统计时，出现了错误判断。

解决办法：

使用force index(索引名)，强制指定。
调整SQL语句
创建一个合适的索引或者删除错误索引。（推荐）

字符串创建索引的思路

思路一：先看数据量大不大，低于5千万的数据，都可以将完整的字段创建为索引。
思路二：如果字段前缀区分度很明显，可以考虑创建前缀索引；注意事项：前缀索引需要定义好长度，才能既节省空间，又不用额外增加太多的查询成本。
思路三：如果字段前缀区分度不明显，但是字段后面区分度明显（比如身份证），可以考虑倒序索引，将字段保存前进行倒序插入。
思路四：在思路三的情况下，对字符串进行hash，在表里再创建一个字段，用来保存hash值。

思路三和思路四：倒序索引和hash的异同点：

相同点：

都不支持范围查询。

不同点：

存储消耗方面：倒序索引和hash，其实是差不多的。当倒序的前缀索引大于4个字节时，和hash就差不多了。
倒序：每次读写，都需要reverse函数，而hash需要调用hash函数，从这两个函数效率来说，reverse消耗要小些；不过这种消耗依然可以忽略不计。
从查询效率来看，使用hash的方式，查询性能会稳定些，因为倒序的方式，会增加扫描次数。而hash方式虽然会存在hash冲突，但是这种概率极低。

参考地址：

https://time.geekbang.org/column/article/70848