使用关系代数合并数据 1 关系代数 合并数据集合的理论基础是关系代数,它是由E.F.Codd于1970年提出的。 在关系代数的形式化语言中: ? 用表、或者数据集合表示关系或者实体。 ? 用行表示元组。 ? 用列表示属性。 关系代数包含以下8个关系运算符 ? 选取――返回满足指定条件的行。 ? 投影――从数据集合中返回指定的列。 ? 笛卡尔积――是关系的乘法,它将分别来自两个数据集合中的行以所有可能的方式进行组合。 ? 并――关系的加法和减法,它可以在行的方向上合并两个表中的数据,就像把一个表垒在另一个表之上一样。 ? 交――返回两个数据集合所共有的行。 ? 差――返回只属于一个数据集合的行。 ? 连接――在水平方向上合并两个表,其方法是:将两个表中在共同数据项上相互匹配的那些行合并起来。 ? 除――返回两个数据集之间的精确匹配。 此外,作为一种实现现代关系代数运算的方法,SQL还提供了: ? 子查询――类似于连接,但更灵活;在外部查询中,方式可以使用表达式、列表或者数据集合的地方都可以使用子查询的结果。 本章将主要讲述多种类型的连接、简单的和相关的子查询、几种类型的并、关系除以及其他的内容。 2 使用连接 2.1 连接类型 在关系代数中,连接运算是由一个笛卡尔积运算和一个选取运算构成的。首先用笛卡尔积完成对两个数据集合的乘运算,然后对生成的结果集合进行选取运算,确保只把分别来自两个数据集合并且具有重叠部分的行合并在一起。连接的全部意义在于在水平方向上合并两个数据集合(通常是表),并产生一个新的结果集合,其方法是将一个数据源中的行于另一个数据源中和它匹配的行组合成一个新元组。 SQL提供了多种类型的连接方式,它们之间的区别在于:从相互交叠的不同数据集合中选择用于连接的行时所采用的方法不同。 连接类型 定义 内连接 只连接匹配的行 左外连接 包含左边表的全部行(不管右边的表中是否存在与它们匹配的行),以及右边表中全部匹配的行 右外连接 包含右边表的全部行(不管左边的表中是否存在与它们匹配的行),以及左边表中全部匹配的行 全外连接 包含左、右两个表的全部行,不管另外一边的表中是否存在与它们匹配的行。 (H)(theta)连接 使用等值以外的条件来匹配左、右两个表中的行 交叉连接 生成笛卡尔积-它不使用任何匹配或者选取条件,而是直接将一个数据源中的每个行与另一个数据源的每个行都一一匹配 在INFORMIX中连接表的查询 如果FROM子句指定了多于一个表引用,则查询会连接来自多个表的行。连接条件指定各列之间(每个表至少一列)进行连接的关系。因为正在比较连接条件中的列,所以它们必须具有一致的数据类型。 SELECT语句的FROM子句可以指定以下几种类型的连接 FROM子句关键字 相应的结果集 CROSS JOIN 笛卡尔乘积(所有可能的行对) INNER JOIN 仅对满足连接条件的CROSS中的列 LEFT OUTER JOIN 一个表满足条件的行,和另一个表的所有行 RIGHT OUTER JOIN 与LEFT相同,但两个表的角色互换 FULL OUTER JOIN LEFT OUTER 和 RIGHT OUTER中所有行的超集 2.2 内连接(Inner Join) 内连接是最常见的一种连接,它页被称为普通连接,而E.FCodd最早称之为自然连接。 下面是ANSI SQL-92标准 select * from t_institution i inner join t_teller t on i.inst_no = t.inst_no where i.inst_no = "5801" 其中inner可以省略。 等价于早期的连接语法 select * from t_institution i, t_teller t where i.inst_no = t.inst_no and i.inst_no = "5801" 2.3 外连接 2.3.1 左外连接(Left Outer Jion) select * from t_institution i left outer join t_teller t on i.inst_no = t.inst_no 其中outer可以省略。 2.3.2 右外连接(Rigt Outer Jion) select * from t_institution i right outer join t_teller t on i.inst_no = t.inst_no 2.3.3 全外连接(Full Outer) 全外连接返回参与连接的两个数据集合中的全部数据,无论它们是否具有与之相匹配的行。在功能上,它等价于对这两个数据集合分别进行左外连接和右外连接,然后再使用消去重复行的并操作将上述两个结果集合并为一个结果集。 在现实生活中,参照完整性约束可以减少对于全外连接的使用,一般情况下左外连接就足够了。在数据库中没有利用清晰、规范的约束来防范错误数据情况下,全外连接就变得非常有用了,你可以使用它来清理数据库中的数据。 select * from t_institution i full outer join t_teller t on i.inst_no = t.inst_no 2.3.4 外连接与条件配合使用 当在内连接查询中加入条件是,无论是将它加入到join子句,还是加入到where子句,其效果是完全一样的,但对于外连接情况就不同了。当把条件加入到join子句时,SQL Server、Informix会返回外连接表的全部行,然后使用指定的条件返回第二个表的行。如果将条件放到where子句中,SQL Server将会首先进行连接操作,然后使用where子句对连接后的行进行筛选。下面的两个查询展示了条件放置位子对执行结果的影响: 条件在join子句 select * from t_institution i left outer join t_teller t on i.inst_no = t.inst_no and i.inst_no = “5801” 结果是: inst_no inst_name inst_no teller_no teller_name 5801 天河区 5801 0001 tom 5801 天河区 5801 0002 david 5802 越秀区 5803 白云区 条件在where子句 select * from t_institution i left outer join t_teller t on i.inst_no = t.inst_no where i.inst_no = “5801” 结果是: inst_no inst_name inst_no teller_no teller_name 5801 天河区 5801 0001 tom 5801 天河区 5801 0002 david 2.4 自身连接 自身连接是指同一个表自己与自己进行连接。这种一元连接通常用于从自反关系(也称作递归关系)中抽取数据。例如人力资源数据库中雇员与老板的关系。 下面例子是在机构表中查找本机构和上级机构的信息。 select s.inst_no superior_inst, s.inst_name sup_inst_name, i.inst_no, i.inst_name from t_institution i join t_institution s on i.superior_inst = s.inst_no 结果是: superior_inst sup_inst_name inst_no inst_name 800 广州市 5801 天河区 800 广州市 5802 越秀区 800 广州市 5803 白云区 2.5 交叉(无限制) 连接 交叉连接用于对两个源表进行纯关系代数的乘运算。它不使用连接条件来限制结果集合,而是将分别来自两个数据源中的行以所有可能的方式进行组合。数据集合中一的每个行都要与数据集合二中的每一个行分别组成一个新的行。例如,如果第一个数据源中有5个行,而第二个数据源中有4个行,那么在它们之间进行交叉连接就会产生20个行。人们将这种类型的结果集称为笛卡尔乘积。 大多数交叉连接都是由于错误操作而造成的;但是它们却非常适合向数据库中填充例子数据,或者预先创建一些空行以便为程序执行期间所要填充的数据保留空间。 select * from t_institution i cross join t_teller t 在交叉连接中没有on条件子句
有两表a和b,前两字段完全相同:(id int,name varchar(10)...) id name ----------- ---------- 1 a 2 b 3 c 以下的查询语句,你知道它的运行结果吗?: 1. select * from a left join b on a.id=b.id where a.id=1 2. select * from a left join b on a.id=b.id and a.id=1 3. select * from a left join b on a.id=b.id and b.id=1 4. select * from a left join b on a.id=1 结果: id name id name ----------- ----------- ----------- ----------- 1 10 1 10
(1 row(s) affected)
id name id name ----------- ----------- ----------- ----------- 1 10 1 10 2 20 NULL NULL 3 30 NULL NULL
(3 row(s) affected)
id name id name ----------- ----------- ----------- ----------- 1 10 1 10 2 20 NULL NULL 3 30 NULL NULL
(3 row(s) affected)
id name id name ----------- ----------- ----------- ----------- 1 10 1 10 1 10 2 20 1 10 3 30 2 20 NULL NULL 3 30 NULL NULL
(5 row(s) affected) 思路: left join 嘛, 无非是左边表为基础, 扫描右边表匹配的记录
先是左边表的第1条记录 1 a 按条件 a.id=1, 来扫描右边表的记录 对于右边表的每条记录, 显然 a.id=1 这个条件都是成立的, 所以第1条记录匹配后的结果是:
1 a 1 a 1 a 2 b 1 a 3 c
--------------------------------------------- 然后再扫描第2条记录 2 b 对于条件 a.id=1, 在边表中没有与之匹配的记录, 所以右边表为NULL 因此第2条记录匹配的结果为 2 b NULL NULL
---------------------------------------------- 第3条记录与第2条记录一样, 匹配的结果是 3 c NULL NULL
--------------------------------------- 因此最终结果是5条记录 1 a 1 a 1 a 2 b 1 a 3 c 2 b null null 3 c null null 内联接(典型的联接运算,使用像 = 或 <> 之类的比较运算符)。包括相等联接和自然联接。 内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行。例如,检索 students 和 courses 表中学生标识号相同的所有行。
外联接。外联接可以是左向外联接、右向外联接或完整外部联接。 在 FROM 子句中指定外联接时,可以由下列几组关键字中的一组指定:
LEFT JOIN 或 LEFT OUTER JOIN。 左向外联接的结果集包括 LEFT OUTER 子句中指定的左表的所有行,而不仅仅是联接列所匹配的行。如果左表的某行在右表中没有匹配行,则在相关联的结果集行中右表的所有选择列表列均为空值。
RIGHT JOIN 或 RIGHT OUTER JOIN。 右向外联接是左向外联接的反向联接。将返回右表的所有行。如果右表的某行在左表中没有匹配行,则将为左表返回空值。
FULL JOIN 或 FULL OUTER JOIN。 完整外部联接返回左表和右表中的所有行。当某行在另一个表中没有匹配行时,则另一个表的选择列表列包含空值。如果表之间有匹配行,则整个结果集行包含基表的数据值。
交叉联接。 交叉联接返回左表中的所有行,左表中的每一行与右表中的所有行组合。交叉联接也称作笛卡尔积。
比如我们想对某人的消费项目进行汇总,对应以下两个表:Theme 与 ThemeDetail Theme 的记录为: ThemeID(int) ThemeName(varchar[10]) 1 就餐 2 出差 3 乘车 4 其它 ThemeDetail 的记录为: DetailID(int) ThemeID(int) Price(money) 1 1 12.5 2 1 5 3 1 6 4 2 11 5 2 17 6 3 8 其中 Theme 中的 ThemeID 与 ThemeDetail 中的 ThemeID 是一对多的关系,对 ThemeDetail 表的理解如下:“就餐”费用为 12.5 + 5 + 6 = 23.5 元,“出差”费用为 11 + 17 = 28 元,“乘车”费用为 8 = 8 元,“其它”费用不存在,视为 0 处理,对应的 SQL 语句可以这样表示: SELECT TOP 100 PERCENT dbo.Theme.ThemeName, ISNULL(SUM(dbo.ThemeDetail.Price), 0) AS TotalPrice FROM dbo.Theme INNER JOIN dbo.ThemeDetail ON dbo.Theme.ThemeID = dbo.ThemeDetail.ThemeID GROUP BY dbo.Theme.ThemeName, dbo.Theme.ThemeID ORDER BY dbo.Theme.ThemeID 执行结果如下: ThemeName TotalPrice 就餐 23.5 出差 28 乘车 8 对于消费记录不存的记录如果就这样不显示它的话,使用内联的方法就可以满足要求了,但是我们现在需要对 Theme 中的每一项均做统计,也包括“其它”项,于是我们应该采用另一种方法来实现,这就是左外联的方法,相应的 SQL 语句可以这样表示: SELECT TOP 100 PERCENT dbo.Theme.ThemeName, ISNULL(SUM(dbo.ThemeDetail.Price), 0) AS TotalPrice FROM dbo.Theme LEFT OUTER JOIN dbo.ThemeDetail ON dbo.Theme.ThemeID = dbo.ThemeDetail.ThemeID GROUP BY dbo.Theme.ThemeName, dbo.Theme.ThemeID ORDER BY dbo.Theme.ThemeID 执行结果如下: ThemeName TotalPrice 就餐 23.5 出差 28 乘车 8 其它 0 这样是不是就满足了我们的要求呢!