MySQL - 给字符串添加索引

Huuaaaaa

已于 2022-12-29 10:35:41 修改

阅读量729

点赞数 1

分类专栏： MySQL 文章标签： mysql 数据库 sql

于 2022-12-28 23:36:08 首次发布

本文链接：https://blog.csdn.net/Huuaaaaa/article/details/128475097

版权

MySQL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

从邮箱开始展开，如何在邮箱这样的字段上建立合理的索引，假设维护以下支持邮箱登录的系统，其用户表如下：

mysql> create table SUser(
ID bigint unsigned primary key,
email varchar(64),
...
)
engine=innodb;

由于要用邮箱登录，所以业务代码中⼀定会出现类似于这样的语句：

mysql> select f1, f2 from SUser where email='xxx';

如果email这个字段上没有索引，那么这个语句就只能做全表扫描。

MySQL是支持前缀索引的，也就是说，你可以定义字符串的一部分作为索引。默认如果创建索引的语句不指定前缀长度，那么索引就会包含整个字符串。

例如该创建索引语句，索引就包含了每个记录的整个字符串：

mysql> alter table SUser add index index1(email);

如果是如下创建索引语句，对于每个记录都是只取前6个字节：

mysql> alter table SUser add index index2(email(6));

email(6)这个索引结构中每个邮箱字段都只取前6个字节（即：zhangs），所以占用的空间会更小，这就是前缀索引的优势。

但这同时带来的损失是，可能会增加额外的记录扫描次数！

假设如下查询语句：

select id,name,email from SUser where email='zhangssxyz@xxx.com';

如果使用的是 index1（即email整个字符串的索引结构），执行顺序为：

1. 从index1索引树找到满足索引值是’zhangssxyz@xxx.com’的这条记录，取得ID2(也就是主键ID)的值；

        2. 到主键上查到主键值是ID2的行，判断email的值是正确的，将这行记录加入结果集；

        3. 取index1索引树上刚刚查到的位置的下一条记录，发现已经不满足email='zhangssxyz@xxx.com’的条件了，循环结束。

        这个过程中，只需要回主键索引取一次数据，所以系统认为只扫描了一行。

如果使用的是index2（即email(6)索引结构），执行顺序是这样的：

        1. 从index2索引树找到满足索引值是’zhangs’的记录，找到的第⼀个是ID1；

        2. 到主键上查到主键值是ID1的行，判断出email的值不是’zhangssxyz@xxx.com’，这行记录丢弃；

        3. 取index2上刚刚查到的位置的下⼀条记录，发现仍然是’zhangs’，取出ID2，再到ID索引上取整行然后判断，这次值对了，将这行记录加入结果集；

        4. 重复上一步，直到在idxe2上取到的值不是’zhangs’时，循环结束。

        在这个过程中，要回主键索引取4次数据，也就是扫描了4行。

通过这个对比我们可以发现使用前缀索引后，可能会导致查询语句读数据的次数变多。但是，对于这个查询语句来说，如果定义的index2不是email(6)而是email(7），也就是说取email字段的前7个字节来构建索引的话，即满足前缀’zhangss’的记录只有⼀个，也能够直接查到ID2，只扫描一行就结束了。

因此使用前缀索引，定义好长度，就可以做到既节省空间，又不用额外增加太多的查询成本。

那么有什么方法能够确定我应该使用多长的前缀呢？

实际上，我们在建立索引时关注的是区分度，区分度越高越好。因为区分度越高，意味着重复的键值越少。因此，我们可以通过统计索引上有多少个不同的值来判断要使⽤多长的前缀。

可以使用下面这个语句，算出这个列上有多少个不同的值：

mysql> select count(distinct email) as L from SUser;

然后，依次选取不同长度的前缀来看这个值，要看 4~7个字节的前缀索引，可以用这个语句：

mysql> select
count(distinct left(email,4)）as L4,
count(distinct left(email,5)）as L5,
count(distinct left(email,6)）as L6,
count(distinct left(email,7)）as L7,
from SUser;

使用前缀索引很可能会损失区分度，需要预先设定⼀个可以接受的损失比例，比如5%。然后，在返回的L4~L7 中，找出不小于 L * 95%的值，假设这里L6、L7都满足，就可以选择前缀长度为6。

继续探讨，例如以下SQL语句，相比与上面的查询语句，这个语句只要求返回id和email字段：

select id,email from SUser where email='zhangssxyz@xxx.com';

所以，如果使用index1（即email整个字符串的索引结构）的话，可以利用覆盖索引，从index1查到结果后直接就返回了，不需要回到ID索引再去查一次。

而如果使用index2（即email(6)索引结构）的话，就不得不回到ID索引再去判断email字段的值。因此前缀索引对覆盖索引是会产生影响的。

即使你将index2的定义修改为email(18)的前缀索引，这时候虽然index2已经包含了所有的信息，但InnoDB还是要回到id索引再查⼀下，因为系统并不确定前缀索引的定义是否截断了完整信息。

也就是说，使用前缀索引就用不上覆盖索引对查询性能的优化了，这也是在选择是否使用前缀索引时需要考虑的一个因素！

对于类似于邮箱这样的字段来说，前缀索引的效果可能还不错。但是，遇到前缀的区分度不够好的情况时，我们要怎么办呢？例如我们国家的身份证号，⼀共18位，其中前6位是地址码，所以同⼀个县的人的身份证号前6位⼀般会是相同的。

这时候如果对身份证号做长度为6的前缀索引的话，这个索引的区分度就非常低了。

因此可以参考以下其他的存储方法：

1. 使用倒序存储：

如果存储身份证号的时候把它倒过来存，由于身份证号的最后6位没有地址码这样的重复逻辑，所以最后这6位很可能就提供了足够的区分度。每次查询的时候，你可以这么写：
mysql> select field_list from t where id_card = reverse('input_id_card_string');
2.使用hash字段：

可以在表上再创建⼀个整数字段，来保存身份证的校验码，同时在这个字段上创建索引。
mysql> alter table t add id_card_crc int unsigned, add index(id_card_crc)；
每次插入新记录的时候，都同时用crc32()这个函数得到校验码填到这个新字段。由于校验码可能存在冲突，也就是说两个不同的身份证号通过crc32()函数得到的结果可能是相同的，所以你的查询语句where部分要判断id_card的值是否精确相同。
mysql> select field_list from t where id_card_crc=crc32('input_id_card_string') and id_card='input_id_card_string' ;
这样，索引的⻓度变成了4个字节，比原来小了很多。