join关联查询优化
接下来通过实例来了解一下join关联查询的运行原理及优化的思路。首先来看一下两个示例表的结构:
t1表的结构如下:
DROP TABLE IF EXISTS `t1`;
CREATE TABLE `t1` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`a` int(11) DEFAULT NULL,
`b` int(11) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `idx_a` (`a`)
) ENGINE=InnoDB AUTO_INCREMENT=20001 DEFAULT CHARSET=utf8;
t2表的结构如下:
DROP TABLE IF EXISTS `t2`;
CREATE TABLE `t2` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`a` int(11) DEFAULT NULL,
`b` int(11) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `idx_a` (`a`)
) ENGINE=InnoDB AUTO_INCREMENT=101 DEFAULT CHARSET=utf8;
t1表及t2表的数据连接如下:脚本连接
Mysql的表关联常见的有以下两种算法:
- Nested-Loop Join 算法 。
- Block Nested-Loop Join 算法。
接下来来看这两种算法在join查询中应用。
Nested-Loop Join 算法
一次一行循环地从第一张表(称为驱动表)中读取行,在这行数据中取到关联字段,根据关联字段在另一张表(被驱动表)里取出满足条件的行,然后取出两张表的结果合集。
EXPLAIN SELECT * FROM t1 INNER JOIN t2 WHERE t1.a = t2.a;
从执行计划中可以看到这些信息:
两条数据的id均为1,而他表在前,所以先执行t2表,所以驱动表是 t2,被驱动表是 t1。先执行的就是驱动表(执行计划结果的id如果一样则按从上到下顺序执行sql);优化器一般会优先选择小表做驱动表。所以使用 inner join 时,排在前面的表并不一定就是驱动表。一般 join 语句中,如果执行计划 Extra 中未出现 Using join buffer 则表示使用的 join 算法是 NLJ。
上面sql的大致流程如下:
- 从表 t2 中读取一行数据;
- 从第 1 步的数据中,取出关联字段 a,到表 t1 中查找;
- 取出表 t1 中满足条件的行,跟 t2 中获取到的结果合并,作为结果返回给客户端;
- 重复上面 3 步。
整个过程会读取 t2 表的所有数据(扫描100行),然后遍历这每行数据中字段 a 的值,根据 t2 表中 a 的值索引扫描 t1 表中的对应行(扫描100次 t1 表的索引,1次扫描可以认为最终只扫描 t1 表一行完整数据,也就是总共 t1 表也扫描了100行)。因此整个过程扫描了 200 行。如果被驱动表的关联字段没索引,使用NLJ算法性能会比较低(下面有详细解释),mysql会选择Block Nested-Loop Join算法。
基于块的嵌套循环连接 Block Nested-Loop Join(BNL)算法
把驱动表的数据读入到 join_buffer 中,然后扫描被驱动表,把被驱动表每一行取出来跟 join_buffer 中的数据做对比。
EXPLAIN SELECT * FROM t1 INNER JOIN t2 WHERE t1.b = t2.b;
Extra 中 的Using join buffer (Block Nested Loop)说明该关联查询使用的是 BNL 算法。
上面sql的大致流程如下:
- 把 t2 的所有数据放入到 join_buffer 中 ;
- 把表 t1 中每一行取出来,跟 join_buffer 中的数据做对比;
- 返回满足 join 条件的数据 ;
整个过程对表 t1 和 t2 都做了一次全表扫描,因此扫描的总行数为10000(表 t1 的数据总量) + 100(表 t2 的数据总量) = 10100。并且 join_buffer 里的数据是无序的,因此对表 t1 中的每一行,都要做 100 次判断,所以内存中的判断次数是100 * 10000= 100 万次。
被驱动表的关联字段没索引为什么要选择使用 BNL 算法而不使用 Nested-Loop Join 呢?
如果上面第二条sql使用 Nested-Loop Join,那么扫描行数为 100 * 10000 = 100万次,这个是磁盘扫描。
很显然,用BNL磁盘扫描次数少很多,相比于磁盘扫描,BNL的内存计算会快得多。因此MySQL对于被驱动表的关联字段没索引的关联查询,一般都会使用 BNL 算法。如果有索引一般选择 NLJ 算法,有索引的情况下 NLJ 算法比 BNL算法性能更高。
关联查询总结
对于关联sql的优化
-
关联字段加索引。让mysql做join操作时尽量选择NLJ算法;
-
小表驱动大表,写多表连接sql时如果明确知道哪张表是小表可以用straight_join写法固定连接驱动方式,省去mysql优化器自己判断的时间。
straight_join解释:
straight_join功能同join类似,但能让左边的表来驱动右边的表,能改表优化器对于联表查询的执行顺序。比如:
select * from t2 straight_join t1 on t2.a = t1.a;
代表制定mysql选着 t2 表作为驱动表。 straight_join只适用于inner join,并不适用于left join,right join。(因为left join,right join已经代表指定了表的执行顺序) -
尽可能让优化器去判断,因为大部分情况下mysql优化器是比人要聪明的。使用straight_join一定要慎重,因为部分情况下人为指定的执行顺序并不一定会比优化引擎要靠谱。
in和exist优化
原则:小表驱动大表,即小的数据集驱动大的数据集 。
-
in:当B表的数据集小于A表的数据集时,in优于exists 。
select * from A where id in (select id from B) #等价于: for(select id from B){ select * from A where A.id = B.id }
-
exists:当A表的数据集小于B表的数据集时,exists优于in 。
将主查询A的数据,放到子查询B中做条件验证,根据验证结果(true或false)来决定主查询的数据是否保留 。select * from A where exists (select 1 from B where B.id =A.id) #等价于: for(select * from A){ select * from B where B.id = A.id } #A表与B表的ID字段应建立索引
总结:
-
EXISTS (subquery)只返回TRUE或FALSE,因此子查询中的SELECT * 也可以用SELECT 1 替换,官方说法是实际执行时会忽略SELECT清单,因此没有区别;
-
EXISTS子查询的实际执行过程可能经过了优化而不是我们理解上的逐条对比;
-
EXISTS子查询往往也可以用JOIN来代替,何种最优需要具体问题具体分析 。
count的优化
在优化之前关闭缓存防止缓存对查询效率产生影响:
set global query_cache_size=0;
set global query_cache_type=0;
EXPLAIN SELECT COUNT(1) FROM employees;
EXPLAIN SELECT COUNT(id) FROM employees;
EXPLAIN SELECT COUNT(name) FROM employees;
EXPLAIN SELECT COUNT(*) FROM employees;
四个sql的执行计划一样,说明这四个sql执行效率应该差不多,区别在于根据某个字段count不会统计字段为null值的数据行。
为什么mysql最终选择辅助索引而不是主键聚集索引?因为二级索引相对主键索引存储数据更少,检索性能应该更高。
常见优化count的方法。
-
查询mysql自己维护的总行数。
对于myisam存储引擎的表做不带where条件的count查询性能是很高的,因为myisam存储引擎的表的总行数会被 mysql存储在磁盘上,查询不需要计算 。EXPLAIN SELECT COUNT(*) FROM myisamdemo;
从Extra和table中可以看到查询并没有表和索引,像之前取最小id一样,其效率是非常高的。对于innodb存储引擎的表mysql不会存储表的总记录行数,查询count需要实时计算 。 -
show table status。
如果只需要知道表总行数的估计值可以用如下sql查询,性能很高 。SHOW TABLE STATUS LIKE 'employees';
对于MyIsam存储引擎的表,该值是准确的。
-
将总数维护到Redis里。
插入或删除表数据行的时候同时维护redis里的表总行数key的计数值(用incr或decr命令),但是这种方式可能不准,很难保证表操作和redis操作的事务一致性。 -
增加计数表。
插入或删除表数据行的时候同时维护计数表,让他们在同一个事务里操作。