MySQL连接（join）原理_mysql join 原理-CSDN博客

本文链接：https://blog.csdn.net/ljjzj/article/details/103630066

一、MySQL JOIN分类

INNER JOIN，内连接，返回左右表互相匹配的所有行
LEFT JOIN，左外连接，返回左表的所有行，若某些行在右表里没有相对应的匹配行，则将右表的列在新表中置为NULL
RIGHT JOIN，右外连接，返回右表的所有行，若某些行在左表里没有相对应的匹配行，则将左表的列在新表中置为NULL
FULL JOIN，MySQL不支持，可以使用左外连接和右外连接的联合查询
CROSS JOIN，交叉连接

二、JOIN顺序

inner join驱动顺序由优化器自己指定，如果优化器选择有误可以使用straight_join自己指定驱动顺序以达到优化的目的

left join驱动顺序是固定的，left join左边的表为驱动表，右边为匹配表，RIGHT JOIN则刚好相反

下面这两个SQL是等价的吗？

select count(*) from t_user_log a left join t_user b on a.uid = b.uid and b.city = 78; 
select count(*) from t_user_log a left join t_user b on a.uid = b.uid where b.city = 78;

不等价，因为前者在匹配表中加了过滤条件，而后者在关联结果中加了过滤条件，前者不影响驱动表检索出来的数据（与匹配表无法匹配的数据依然会检索出来，只是匹配表字段部分值等于NULL），后者影响驱动表检索出来的数据（因为在结果集中直接被过滤掉了）。

三、MySQL原理介绍

场景： t1表插入100行，t2表插入1000行数据

select * from t1 straight_join t2 on (t1.a=t2.a);

Index Nested-Loop Join

连接字段a上有索引，straight_join 让 MySQL 使用固定的连接方式执行查询，这样优化器只会按照我们指定的方式去 join，不会自己选择。在这个语句里，t1 是驱动表，t2 是被驱动表

执行流程：先遍历表 t1，然后根据从表 t1 中取出的每行数据中的 a 值，去表 t2 中查找满足条件的记录。并且可以用上被驱动表的索引。驱动表是走全表扫描，而被驱动表是走树搜索

使用 join 语句，性能比强行拆成多个单表执行 SQL 语句的性能要好
如果使用 join 语句的话，需要让小表做驱动表，因为小表是驱动表，走的是全表扫描，表越小，扫描的数据越少，性能越好

Simple Nested-Loop Join

被驱动表上没有可用的索引

因为t2没有索引，所以需要全表扫描。总共需扫描100*1000行，数据量大的时候性能可想而知，为此MySQL采取Block Nested-Loop Join策略优化。

Block Nested-Loop Join

流程：

把表 t1 的数据读入线程内存 join_buffer 中，由于我们这个语句中写的是 select *，因此是把整个表 t1 放入了内存
扫描表 t2，把表 t2 中的每一行取出来，跟 join_buffer 中的数据做对比，满足 join 条件的，作为结果集的一部分返回

Block Nested-Loop Join算法的这 10 万次判断是内存操作，速度上会快很多，性能也更好，并且只需要扫描两次表即可

假设小表的行数是 N，大表的行数是 M，那么在这个算法里：

两个表都做一次全表扫描，所以总的扫描行数是 M+N；
内存中的判断次数是 M*N。

这里无所谓驱动表和被驱动表

join_buffer放不下

join_buffer 的大小是由参数 join_buffer_size 设定的，默认值是 256k。如果放不下表 t1的所有数据话，策略很简单，就是分段放

驱动表的数据行数是 N，需要分 K 段才能完成算法流程，被驱动表的数据行数是M，K 表示为λ*N

在这个算法的执行过程中：

扫描行数是 N+λNM；
内存判断 N*M 次

内存判断次数是不受选择哪个表作为驱动表影响的。而考虑到扫描行数，在 M 和N 大小确定的情况下，N 小一些，整个算式的结果会更小。在数据量大的情况下，如果你的 join 语句很慢，可以把join_buffer_size 改大，这样分段数小一点

N 越大，分段数 K 越大。那么，N 固定的时候，什么参数会影响 K 的大小呢？（也就是λ的大小）

答案是 join_buffer_size。join_buffer_size 越大，一次可以放入的行越多，分成的段数也就越少，对被驱动表的全表扫描次数就越少

结论：join_buffer放不下驱动表时，驱动表越小，扫描被驱动表的次数越少，总的扫描行数越少

能不能使用 join 语句？
推荐使用join字段上加索引方式，没有索引的话性能较差。所以在判断要不要使用 join 语句时，就是看 explain 结果里面，Extra 字段里面有没有出现“Block Nested Loop”字样，出现的话最好不要使用

如果要使用 join，应该选择大表做驱动表还是选择小表做驱动表？

如果是 Index Nested-Loop Join 算法，应该选择小表做驱动表；
如果是 Block Nested-Loop Join 算法：
- 在 join_buffer_size 足够大的时候，是一样的
- 在 join_buffer_size 不够大的时候（这种情况更常见），应该选择小表做驱动表。

在决定哪个表做驱动表的时候，应该是两个表按照各自的条件过滤，过滤完成之后，计算参与 join 的各个字段的总数据量，数据量小的那个表，就是“小表”，应该作为驱动表