SQL查询n+1问题以及迪卡尔积问题

最新推荐文章于 2024-09-11 09:09:38 发布

程序员海波

最新推荐文章于 2024-09-11 09:09:38 发布

阅读量1.2k

点赞数

分类专栏： sql

sql 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章来自 http://blog.csdn.net/z69183787/article/details/46288815

如果当SQL 数据库中select语句数目过多，就会影响数据库的性能，如果需要查询n个Customer对象，那么必须执行n+1次select查询语句，下文就将为您讲解这个n+1次select查询问题。

在Session的缓存中存放的是相互关联的对象图。默认情况下，当hibernate从数据库中加载Customer对象时，会同时加载所有关联的Order对象。以Customer和Order类为例，假定ORDERS表的CUSTOMER_ID外键允许为null，图1列出了CUSTOMERS表和ORDERS表中的记录。

以下Session的find()方法用于到数据库中检索所有的Customer对象：

List customerLists=session.find("from Customer as c");

运行以上find()方法时，Hibernate将先查询CUSTOMERS表中所有的记录，然后根据每条记录的ID，到ORDERS表中查询有参照关系的记录，Hibernate将依次执行以下select语句：

select * from CUSTOMERS;
select * from ORDERS where CUSTOMER_ID=1;
select * from ORDERS where CUSTOMER_ID=2;
select * from ORDERS where CUSTOMER_ID=3;
select * from ORDERS where CUSTOMER_ID=4;

通过以上5条select语句，Hibernate最后加载了4个Customer对象和5个Order对象，在内存中形成了一幅关联的对象图，参见图2。

Hibernate在检索与Customer关联的Order对象时，使用了默认的立即检索策略。这种检索策略存在两大不足：

（1） select语句的数目太多，需要频繁的访问数据库，会影响检索性能。如果需要查询n个Customer对象，那么必须执行n+1次select查询语句。这就是经典的n+1次select查询问题。这种检索策略没有利用SQL的连接查询功能，例如以上5条select语句完全可以通过以下1条select语句来完成：

select * from CUSTOMERS left outer join ORDERS
on CUSTOMERS.ID=ORDERS.CUSTOMER_ID

以上select语句使用了SQL的左外连接查询功能，能够在一条select语句中查询出CUSTOMERS表的所有记录，以及匹配的ORDERS表的记录。

（2）在应用逻辑只需要访问Customer对象，而不需要访问Order对象的场合，加载Order对象完全是多余的操作，这些多余的Order对象白白浪费了许多内存空间。

为了解决以上问题，Hibernate提供了其他两种检索策略：延迟检索策略和迫切左外连接检索策略。延迟检索策略能避免多余加载应用程序不需要访问的关联对象，迫切左外连接检索策略则充分利用了SQL的外连接查询功能，能够减少select语句的数目。

文章 http://www.360doc.com/content/14/1229/21/7635_436727229.shtml

本篇文章中，主要说明SQL中的各种连接以及使用范围，以及更进一步的解释关系代数法和关系演算法对在同一条查询的不同思路。

多表连接简介

在关系数据库中，一个查询往往会涉及多个表，因为很少有数据库只有一个表，而如果大多查询只涉及到一个表的，那么那个表也往往低于第三范式，存在大量冗余和异常。

因此，连接(Join)就是一种把多个表连接成一个表的重要手段.

比如简单两个表连接学生表(Student)和班级(Class)表，如图:

进行连接后如图：

笛卡尔积

笛卡尔积在SQL中的实现方式既是交叉连接(Cross Join)。所有连接方式都会先生成临时笛卡尔积表，笛卡尔积是关系代数里的一个概念，表示两个表中的每一行数据任意组合,上图中两个表连接即为笛卡尔积(交叉连接)

在实际应用中，笛卡尔积本身大多没有什么实际用处，只有在两个表连接时加上限制条件，才会有实际意义，下面看内连接

内连接

如果分步骤理解的话，内连接可以看做先对两个表进行了交叉连接后，再通过加上限制条件(SQL中通过关键字on)剔除不符合条件的行的子集,得到的结果就是内连接了.上面的图中，如果我加上限制条件

对于开篇中的两个表，假使查询语句如下：

		SELECT *
  FROM [Class] c
       inner join 
       [Student] s
       on c.ClassID=s.StudentClassID

可以将上面查询语句进行分部理解，首先先将Class表和Student表进行交叉连接,生成如下表:

然后通过on后面的限制条件，只选择那些StudentClassID和ClassID相等的列（上图中划了绿色的部分）,最终，得到选择后的表的子集

当然，内连接on后面的限制条件不仅仅是等号，还可以使用比较运算符,包括了>（大于）、>=（大于或等于）、<=（小于或等于）、<（小于）、!>（不大于）、!<（不小于）和<>（不等于）。当然，限制条件所涉及的两个列的数据类型必须匹配.

对于上面的查询语句，如果将on后面限制条件由等于改为大于:

		SELECT *
  FROM [Class] c
       inner join 
       [Student] s
       on c.ClassID>s.StudentClassID

则结果从第一步的笛卡尔积中筛选出那些ClassID大于StudentClassID的子集:

虽然上面连接后的表并没有什么实际意义，但这里仅仅作为DEMO使用:-)

关系演算

上面笛卡尔积的概念是关系代数中的概念，而我在前一篇文章中提到还有关系演算的查询方法.上面的关系代数是分布理解的，上面的语句推导过程是这样的：“对表Student和Class进行内连接，匹配所有ClassID和StudentClassID相等行，选择所有的列”

而关系演算法，更多关注的是我想要什么,比如说上面同样查询，用关系演算法思考的方式是“给我找到所有学生的信息，包括他们的班级信息，班级ID，学生ID，学生姓名”

用关系演算法的SQL查询语句如下：

		SELECT *
  FROM [Class] c
       ,
       [Student] s
  where c.ClassID=s.StudentClassID

当然，查询后返回的结果是不会变的：

外连接

假设还是上面两个表，学生和班级.我在学生中添加一个名为Eric的学生，但出于某种原因忘了填写它的班级ID：

当我想执行这样一条查询：给我取得所有学生的姓名和他们所属的班级:

		SELECT s.StudentName,c.ClassName 
        
  FROM [fordemo].[dbo].[Student] s
       inner join 
       [fordemo].[dbo].[Class] c
       on 
       s.StudentClassID=c.ClassID

结果如下图:

可以看到，这个查询“丢失”了Eric..

这时就需要用到外连接，外连接可以使连接表的一方，或者双方不必遵守on后面的连接限制条件.这里把上面的查询语句中的inner join改为left outer join:

		SELECT s.StudentName,c.ClassName 
        
  FROM [fordemo].[dbo].[Student] s
       left outer join 
       [fordemo].[dbo].[Class] c
       on 
       s.StudentClassID=c.ClassID

结果如下：

Eric又重新出现.

右外连接

右外连接和左外连接的概念是相同的，只是顺序不同，对于上面查询语句，也可以改成:

		SELECT s.StudentName,c.ClassName 
        
  FROM [fordemo].[dbo].[Class] c
       right outer join 
       [fordemo].[dbo].[Student] s
       on 
       s.StudentClassID=c.ClassID

效果和上面使用了左外连接的效果是一样的.

全外连接

全外连接是将左边和右边表每行都至少输出一次,用关键字”full outer join”进行连接，可以看作是左外连接和右外连接的结合.

自连接

谈到自连接，让我们首先从一个表和一个问题开始：

上面员工表(Employee)，因为经理也是员工的一种，所以将两种人放入一个表中，MangerID字段表示的是当前员工的直系经理的员工id.

现在，我的问题是，如何查找CareySon的经理的姓名?

可以看出，虽然数据存储在单张表中，但除了嵌套查询(这个会在后续文章中讲到)，只有自连接可以做到.正确自连接语句如下:

		SELECT m.EmployeeName
  FROM [fordemo].[dbo].[Employee] e
  inner join [fordemo].[dbo].[Employee] m
  on  e.ManagerID=m.id and e.EmployeeName='Careyson'

在详细解释自连接的概念之前，请再看一个更能说明自连接应用之处的例子:

这个表是一个出席会议记录的表，每一行表示出席会议的记录(这里，由于表简单，我就不用EmployeeID和MeetingID来表示了，用名称对于理解表更容易些)

好了，现在我的问题是:找出既参加“谈论项目进度”会议，又参加”讨论职业发展”会议的员工

乍一看上去很让人迷惑是吧,也许你看到这一句脑中第一印象会是:

		SELECT  EmployeeName
  FROM [fordemo].[dbo].[MeettingRecord] m
  where MeetingName='¨???????????¨¨' and meetingName='¨???????¨°???¤?é?1'

（我用的代码高亮插件不支持中文，所以上面where子句后面第一个字符串是’谈论项目进度’，第二个是’讨论职业发展’）

恩，恭喜你，答错了…如果这样写将会什么数据也得不到.正确的写法是使用自连接！

自连接的是一种特殊的连接，是对物理上相同但逻辑上不相同的表进行连接的方式。我看到百度百科上说自连接是一种特殊的内连接,但这是错误的,因为两个相同表之间不光可以内连接，还可以外连接，交叉连接…在进行自连接时，必须为其中至少一个表指定别名以对这两个表进行区分！

回到上面的例子，使用自连接，则正确的写法为:

		SELECT  m.EmployeeName
  FROM [fordemo].[dbo].[MeettingRecord] m,
        [fordemo].[dbo].[MeettingRecord] m2
  where m.MeetingName='¨???????????¨¨' and m2.MeetingName='¨???????¨°???¤?é?1'
        and m.EmployeeName=m2.EmployeeName

（关于乱码问题，请参考上面)

多表连接

多个表连接实际上可以看成是对N个表进行n-1次双表连接.这样理解会让问题简单很多!

比如上面三个表，前两个表是我们已经在文章开始认识的，假设现在又添加了一个教师表，对这三个表进行笛卡尔积如下:

		SELECT *
  FROM [fordemo].[dbo].[Class]
       cross join 
       [fordemo].[dbo].[Teacher]
       cross join 
       [fordemo].[dbo].[Student]

结果可以如图表示:

总结

文中对SQL中各种连接查询方式都做了简单的介绍，并利用一些Demo实际探讨各种连接的用处，掌握好各种连接的原理是写好SQL查询所必不可少的！

-------------------------------------------------------------

没有join条件导致笛卡尔乘积
学过线性代数的人都知道，笛卡尔乘积通俗的说，就是两个集合中的每一个成员，都与对方集合中的任意一个成员有关联。可以想象，在SQL查询中，如果对两张表join查询而没有join条件时，就会产生笛卡尔乘积。这就是我们的笛卡尔乘积导致的性能问题中最常见的案例：开发人员在写代码时遗漏了join条件。

发生笛卡尔乘积的sql：

view plaincopy to clipboardprint?select sum(project_fj.danjia*project_fj.mianji) from project_fj,orderform where project_fj.zhuangtai='未售' and project_fj.project_id=30
select sum(project_fj.danjia*project_fj.mianji) from project_fj,orderform where project_fj.zhuangtai='未售' and project_fj.project_id=30

这个语句其实只是sql语句的一部分，问题是另一部分用到了表orderform，所以from中有orderform，但是上面的这部分语句完全没有用到orderform，但是不设置条件就导致了笛卡尔乘积。

解决方法：使用LEFT JOIN

view plaincopy to clipboardprint?select sum(project_fj.danjia*project_fj.mianji) from project_fj LEFT JOIN orderform ON project_fj.id=orderform.project_id
where project_fj.zhuangtai='未售' and project_fj.project_id=30
select sum(project_fj.danjia*project_fj.mianji) from project_fj LEFT JOIN orderform ON project_fj.id=orderform.project_id
where project_fj.zhuangtai='未售' and project_fj.project_id=30

本文出自“suixufeng的专栏”