工作总结之因为笛卡尔积问题写SQL搞了半天[害](附笛卡尔积总结)_笛卡尔积sql(4)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

+ [解决过程](#_6)
+ [结果](#_9)
+ [多表连接简介](#_55)

背景

在这里插入图片描述
管控组同事反馈:宿舍总数异常,加起来的间数比深圳市人口都多,无疑数据是异常的

需求

使宿舍数据恢复正常。

解决过程

尝试过左连接,右连接及内连接等等,发现数据始终比实际数据多出很多,查阅资料判断是产生了笛卡尔积,下文有详细的笛卡尔积解释 根据指引选择where 进行多条件限制仍然不行🙅。

结果

最后发现在大表b中所有的字段都有,直接from 大表即可。为了笛卡尔积问题花了3个多小时[害]

总结教训下次先观察两张表的字段再改SQL!
起初的SQL:

SELECT
	RAWTOHEX(sys_guid()),
	a.SSLDBH,
	CONCAT(b.SSQY, b.LDMC) LDMC,
	COUNT(a.SSFJH),
	NULL SSLX
FROM
	 a
inner JOIN
	 b
ON
	a.XB =b.XB 
  AND a.XQMC =b.XQMC
  AND a.XYMC =b.YXMC 
  AND a.SSLC = b.LCMC   
  AND a.SSLDBH = SUBSTR(b.SSFJH, 1, 6)
GROUP BY
	a.SSLDBH,
	b.SSQY,
	b.LDMC

修改后的SQL:

SELECT
	RAWTOHEX(sys_guid()),
	SUBSTR(b.SSFJH, 1, 6),
	CONCAT(b.SSQY, b.LDMC) LDMC,
	COUNT(b.SSFJH),
	NULL SSLX
FROM
	 b
GROUP BY
	SUBSTR(b.SSFJH, 1, 6),
	b.SSQY,
	b.LDMC

多表连接简介

关系数据库中,一个查询往往会涉及多个表,因为很少有数据库只有一个表,而如果大多查询只涉及到一个表的,那么那个表也往往低于第三范式,存在大量冗余和异常。

因此,连接(Join)就是一种把多个表连接成一个表的重要手段.

比如简单两个表连接学生表(Student)和班级(Class)表,如图:

12

进行连接后如图:

3

笛卡尔积

笛卡尔积在SQL中的实现方式既是交叉连接(Cross Join)。所有连接方式都会先生成临时笛卡尔积表,笛卡尔积是关系代数里的一个概念,表示两个表中的每一行数据任意组合,上图中两个表连接即为笛卡尔积(交叉连接)

在实际应用中,笛卡尔积本身大多没有什么实际用处,只有在两个表连接时加上限制条件,才会有实际意义,下面看内连接

内连接

如果分步骤理解的话,内连接可以看做先对两个表进行了交叉连接后,再通过加上限制条件(SQL中通过关键字on)剔除不符合条件的行的子集,得到的结果就是内连接了.上面的图中,如果我加上限制条件

对于开篇中的两个表,假使查询语句如下:

		SELECT *
  FROM [Class] c
       inner join 
       [Student] s
       on c.ClassID=s.StudentClassID

可以将上面查询语句进行分部理解,首先先将Class表和Student表进行交叉连接,生成如下表:

5

然后通过on后面的限制条件,只选择那些StudentClassID和ClassID相等的列(上图中划了绿色的部分),最终,得到选择后的表的子集

当然,内连接on后面的限制条件不仅仅是等号,还可以使用比较运算符,包括了>(大于)、>=(大于或等于)、<=(小于或等于)、<(小于)、!>(不大于)、!<(不小于)和<>(不等于)。当然,限制条件所涉及的两个列的数据类型必须匹配.

对于上面的查询语句,如果将on后面限制条件由等于改为大于:

		SELECT *
  FROM [Class] c
       inner join 
       [Student] s
       on c.ClassID>s.StudentClassID

则结果从第一步的笛卡尔积中筛选出那些ClassID大于StudentClassID的子集:

6

虽然上面连接后的表并没有什么实际意义,但这里仅仅作为DEMO使用:-)

关系演算

上面笛卡尔积的概念是关系代数中的概念,而我在前一篇文章中提到还有关系演算的查询方法.上面的关系代数是分布理解的,上面的语句推导过程是这样的:“对表Student和Class进行内连接,匹配所有ClassID和StudentClassID相等行,选择所有的列”

而关系演算法,更多关注的是我想要什么,比如说上面同样查询,用关系演算法思考的方式是“给我找到所有学生的信息,包括他们的班级信息,班级ID,学生ID,学生姓名”

用关系演算法的SQL查询语句如下:

		SELECT *
  FROM [Class] c
       ,
       [Student] s
  where c.ClassID=s.StudentClassID

当然,查询后返回的结果是不会变的:

4

外连接

假设还是上面两个表,学生和班级.我在学生中添加一个名为Eric的学生,但出于某种原因忘了填写它的班级ID:

7 2

当我想执行这样一条查询:给我取得所有学生的姓名和他们所属的班级:

		SELECT s.StudentName,c.ClassName 
        
  FROM [fordemo].[dbo].[Student] s
       inner join 
       [fordemo].[dbo].[Class] c
       on 
       s.StudentClassID=c.ClassID

结果如下图:

8

可以看到,这个查询“丢失”了Eric…

这时就需要用到外连接,外连接可以使连接表的一方,或者双方不必遵守on后面的连接限制条件.这里把上面的查询语句中的inner join改为left outer join:

		SELECT s.StudentName,c.ClassName 
        
  FROM [fordemo].[dbo].[Student] s
       left outer join 
       [fordemo].[dbo].[Class] c
       on 
       s.StudentClassID=c.ClassID

结果如下:

9

Eric又重新出现.

右外连接

右外连接和左外连接的概念是相同的,只是顺序不同,对于上面查询语句,也可以改成:

		SELECT s.StudentName,c.ClassName 


![img](https://img-blog.csdnimg.cn/img_convert/e57f903c7f6b490bef066c82fdd9c271.png)
![img](https://img-blog.csdnimg.cn/img_convert/be4eafcdd0599bc0223598842044c6ed.png)

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

外链图片转存中...(img-5ypiyc7V-1715784724364)]

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值