MySQL 性别为什么不适合建立索引-值重复率高的字段不适合建索引【转载】

最新推荐文章于 2025-03-19 22:04:23 发布

转载最新推荐文章于 2025-03-19 22:04:23 发布 · 2.4k 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://blog.csdn.net/dshf_1/article/details/88757536

文章标签：

mysql学习专栏收录该内容

18 篇文章

订阅专栏

本文探讨了数据库索引的设计原则，特别是对于值重复率高的字段如性别建立索引的弊端。通过分析索引的工作原理，解释了在某些场景下，高重复率字段的索引不仅不会提升查询效率，反而可能增加不必要的I/O开销。

理论文章会告诉你值重复率高的字段不适合建索引。不要说性别字段只有两个值，网友亲测，一个字段使用拼音首字母做值，共有26种可能，加上索引后，百万加的数据量，使用索引的速度比不使用索引要慢！

一个表可能会涉及两个数据结构(文件)，一个是表本身，存放表中的数据，另一个是索引。索引是什么？它就是把一个或几个字段（组合索引）按规律排列起来，再附上该字段所在行数据的物理地址（位于表中）。比如我们有个字段是年龄，如果要选取某个年龄段的所有行，那么一般情况下可能需要进行一次全表扫描。但如果以这个年龄段建个索引，那么索引中会按年龄值建一个排列，这样在索引中就能迅速定位，不需要进行全表扫描。

为什么性别不适合建索引呢？因为你访问索引需要付出额外的IO开销，你从索引中拿到的只是地址，要想真正访问到数据还是要对表进行一次IO。假如你要从表的100万行数据中取几个数据，那么利用索引迅速定位，访问索引的这IO开销就非常值了。但如果你是从100万行数据中取50万行数据，就比如性别字段，那你相对需要访问50万次索引，再访问50万次表，加起来的开销并不会比直接对表进行一次完整扫描小。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。