总是听人说单表500w一定要分库分表,上千万的数据查询一定慢,没有场景的前提,都是扯淡的,下面做个小测验。
-
数据库:mysql8.0.20
-
系统:win10
-
数据构建:数据构建地址
注:我将索引user_id去除了,添加了user_name和phone索引。 -
mysql配置如下:
mysql配置全是安装后默认的,关键参数innodb_buffer_pool_size为128M.关于InnoDB缓冲池大小配置请参考官网:配置InnoDB缓冲池大小 -
数据条数:13442974 查询全部count耗时377s。
-
数据和索引长度分别是:1.41 GB 1.09 GB
-
树的高度:3
win如何查看树的高度参考:WINHEX查看innodb的BTree高度
以上是数据说明,下面开始验证数据:
数据1300多万,innodb_buffer_pool_size为128M的配置情况下,使用索引user_name查询数据耗时0.021s(本地测试不存在网络开销)。查询count使用了6-7分钟,如果全表limit其中的数据Navicat直接卡死。在未指定场景下,几千万数据一定查询慢或者一定要分库分表的,请自己手动尝试下。再比如业务需要全表limit,分库分表就一定能解决这个问题吗?只会让问题更加复杂化。
数据和索引都存放到一个文件中,如何能根据索引快速查询,其中的脉络细节我也不知道.推荐几个文章。
InnoDB索引页的物理结构
InnoDB中的B + Tree索引结构
使用页面目录有效遍历InnoDB B + Trees