数据库规范化
数据库规范化是一种设计数据库结构的过程,目的是减少冗余数据、提高数据的一致性和避免数据插入、更新和删除时的异常。数据库规范化通常分为不同的范式,如第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等。
1. 第一范式(1NF)
定义: 所有的列都是原子性的,即每一列的值都是不可再分的基本数据单元。
示例:
考虑下面的表格:
学生ID | 姓名 | 课程 |
---|---|---|
1 | 小明 | 数学, 物理 |
2 | 小红 | 化学, 英语 |
上述表格不满足第一范式,因为“课程”这一列包含了多个值。正确的设计是将课程拆分为多行:
学生ID | 姓名 | 课程 |
---|---|---|
1 | 小明 | 数学 |
1 | 小明 | 物理 |
2 | 小红 | 化学 |
2 | 小红 | 英语 |
2. 第二范式(2NF)
定义: 在满足第一范式的基础上,消除非主属性对主键的部分函数依赖。
示例:
考虑下面的表格:
订单号 | 产品ID | 产品名称 | 单价 | 数量 |
---|---|---|---|---|
1 | 101 | 商品A | 10.00 | 2 |
2 | 101 | 商品A | 12.00 | 3 |
2 | 102 | 商品B | 15.00 | 1 |
上述表格不满足第二范式,因为“产品名称”依赖于部分主键(订单号,产品ID)。正确的设计是将产品信息拆分为独立的表格:
订单表 (Orders):
订单号 | 产品ID | 单价 | 数量 |
---|---|---|---|
1 | 101 | 10.00 | 2 |
2 | 101 | 12.00 | 3 |
2 | 102 | 15.00 | 1 |
产品表 (Products):
产品ID | 产品名称 |
---|---|
101 | 商品A |
102 | 商品B |
3. 第三范式(3NF)
定义: 在满足第二范式的基础上,消除非主属性对其他非主属性的传递依赖。
示例:
考虑下面的表格:
员工ID | 部门ID | 部门名称 | 部门地点 |
---|---|---|---|
1 | 101 | 开发部 | 北京 |
2 | 102 | 销售部 | 上海 |
上述表格不满足第三范式,因为“部门地点”依赖于非主属性“部门名称”。正确的设计是将部门信息拆分为独立的表格:
员工表 (Employees):
员工ID | 部门ID |
---|---|
1 | 101 |
2 | 102 |
部门表 (Departments):
部门ID | 部门名称 | 部门地点 |
---|---|---|
101 | 开发部 | 北京 |
102 | 销售部 | 上海 |
关系代数运算
关系代数运算是一组用于查询数据库中关系表的操作。常见的关系代数运算包括选择(σ)、投影(π)、并(∪)、差(-)、笛卡尔积(×)等。
1. 选择运算(σ)
定义: 从关系中选取满足指定条件的元组。
示例:
考虑关系 R 表示学生的成绩:
学号 | 课程 | 成绩 |
---|---|---|
1 | 数学 | 90 |
2 | 物理 | 85 |
1 | 英语 | 92 |
3 | 化学 | 88 |
选择运算,表示选择成绩大于等于 90 的记录:
σ成绩≥90®
结果:
学号 | 课程 | 成绩 |
---|---|---|
1 | 数学 | 90 |
1 | 英语 | 92 |
2. 投影运算(π)
定义: 从关系中选取指定列的数据。
示例:
考虑关系 R 表示学生的成绩:
学号 | 姓名 | 课程 | 成绩 |
---|---|---|---|
1 | 小明 | 数学 | 90 |
2 | 小红 | 物理 | 85 |
1 | 小明 | 英语 | 92 |
3 | 小刚 | 化学 | 88 |
投影运算,表示选取学号和课程两列的数据:
π学号, 课程®
结果:
学号 | 课程 |
---|---|
1 | 数学 |
2 | 物理 |
3 | 英语 |
这样,通过关系代数运算
3. 除法运算 (÷)
定义: 除法运算用于找到一个关系中的元组,这些元组与另一个关系中的所有元组一起,形成的组合不存在于第三个关系中。
示例:
考虑关系 R 表示学生选课情况:
学号 | 课程 |
---|---|
1 | 数学 |
2 | 物理 |
3 | 化学 |
1 | 英语 |
2 | 化学 |
关系 S 表示学生的成绩:
学号 | 成绩 |
---|---|
1 | 90 |
2 | 85 |
3 | 88 |
除法运算,表示找出选了所有课程的学生:
R ÷ S
结果:
学号 |
---|
1 |
4. 连接运算 (⨝)
定义: 连接运算用于将两个关系的元组按照指定的条件合并。
示例:
考虑关系 R 表示学生的信息:
学号 | 姓名 |
---|---|
1 | 小明 |
2 | 小红 |
3 | 小刚 |
关系 S 表示学生的成绩:
学号 | 成绩 |
---|---|
1 | 90 |
2 | 85 |
3 | 88 |
连接运算,表示按照学号将学生的信息和成绩合并:
R ⨝学号=学号 S
结果:
学号 | 姓名 | 成绩 |
---|---|---|
1 | 小明 | 90 |
2 | 小红 | 85 |
3 | 小刚 | 88 |
5. 外连接运算 (⨝o)
定义: 外连接运算用于获取连接后的所有元组,以及未匹配的元组。
示例:
考虑关系 R 表示学生的信息:
学号 | 姓名 |
---|---|
1 | 小明 |
2 | 小红 |
3 | 小刚 |
关系 S 表示学生的成绩:
学号 | 成绩 |
---|---|
1 | 90 |
2 | 85 |
4 | 88 |
外连接运算,表示按照学号将学生的信息和成绩合并:
R ⨝学号=学号o S
结果:
学号 | 姓名 | 成绩 |
---|---|---|
1 | 小明 | 90 |
2 | 小红 | 85 |
3 | 小刚 | null |
4 | null | 88 |
这些关系代数运算和示例帮助我们理解在数据库中如何对关系进行操作和查询,以获取所需的数据。
5.1 左外连接 (⨝左)
定义: 左外连接运算用于获取连接后的所有元组,以及左表中未匹配的元组。
示例:
考虑关系 R 表示学生的信息:
学号 | 姓名 |
---|---|
1 | 小明 |
2 | 小红 |
3 | 小刚 |
关系 S 表示学生的成绩:
学号 | 成绩 |
---|---|
1 | 90 |
2 | 85 |
4 | 88 |
左外连接运算,表示按照学号将学生的信息和成绩合并:
R ⨝学号=学号左 S
结果:
学号 | 姓名 | 成绩 |
---|---|---|
1 | 小明 | 90 |
2 | 小红 | 85 |
3 | 小刚 | null |
5.2 右外连接 (⨝右)
定义: 右外连接运算用于获取连接后的所有元组,以及右表中未匹配的元组。
示例:
考虑关系 R 表示学生的信息:
学号 | 姓名 |
---|---|
1 | 小明 |
2 | 小红 |
3 | 小刚 |
关系 S 表示学生的成绩:
学号 | 成绩 |
---|---|
1 | 90 |
2 | 85 |
4 | 88 |
右外连接运算,表示按照学号将学生的信息和成绩合并:
R ⨝学号=学号右 S
结果:
学号 | 姓名 | 成绩 |
---|---|---|
1 | 小明 | 90 |
2 | 小红 | 85 |
4 | null | 88 |
5.3 全外连接 (⨝全)
定义: 全外连接运算用于获取连接后的所有元组,以及两个表中未匹配的元组。
示例:
考虑关系 R 表示学生的信息:
学号 | 姓名 |
---|---|
1 | 小明 |
2 | 小红 |
3 | 小刚 |
关系 S 表示学生的成绩:
学号 | 成绩 |
---|---|
1 | 90 |
2 | 85 |
4 | 88 |
全外连接运算,表示按照学号将学生的信息和成绩合并:
R ⨝学号=学号全 S
结果:
学号 | 姓名 | 成绩 |
---|---|---|
1 | 小明 | 90 |
2 | 小红 | 85 |
3 | 小刚 | null |
4 | null | 88 |
左外连接、右外连接和全外连接的不同之处在于返回的结果集中,未匹配的元组来自左表、右表或两者的并集。