在学习MySQL的表连接时,笛卡尔积是必须知道的一个概念。在没有任何限制条件的情况下,两表连接必然会形成笛卡尔积。
笛卡尔积
如果表1有m行a列,表2有n行b列,两表无条件连接时会将两表里所有行两两组合到一起,所形成的表就有m*n行,a+b列。如果表1或表2的记录数很多时,连接后会形成一张非常大的表,在这种大表里查询效率特别低,所以在数据库查询时,应尽量避免笛卡尔积的出现。
在Hive的严格模式中,也专门限制了笛卡尔积。
这里总结了什么情况下可能产生笛卡尔积,以后在查询中应该避免。
首先问个问题,常见的左连接查询,是不是笛卡尔积。换个方式问,左连接中以左表为准,左表有m条记录,连接后的结果集是不是一定能得到m条记录?答案是不一定,也就是说,左连接查询可能会产生笛卡尔积。
先附上结论:
连接查询时,当连接on条件是非唯一字段时,会出现笛卡尔积(局部笛卡尔积);当连接on条件是唯一字段时,则不会出现笛卡尔积。
证明如下:
会用到三张表,student、score、class,其中student表中sno字段唯一,score无唯一字段,class表中classID字段唯一,三张表如下所示: