数据库第8章关系数据库设计

最新推荐文章于 2024-04-02 16:07:16 发布

Air浩瀚

最新推荐文章于 2024-04-02 16:07:16 发布

阅读量412

点赞数

分类专栏： # 数据库文章标签：数据库

本文链接：https://blog.csdn.net/Ryansior/article/details/125549706

版权

数据库专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

**Chapter 8: Relational Database Design**

Chapter 8: Relational Database Design

8.1 好的关系设计的特点（Features of Good Relational Design）

设计选择（Design Alternative）:

Larger Schemas（更大的模式）
Smaller Schemas（更小的模式）

存储异常（Storage Anomaly）

（以图书管理系统中，个人信息是否应当与书本信息合并：不应该）

Data redundancy（数据冗余）：当某人借书超过一本，其所在部门的信息被重复
Update anomaly（更新异常）/ Potential inconsistency（潜在的不一致性）：当某个借书人所在部门需要更新时，由于数据冗余，可能发生更新不一致的情况
Insert anomaly（插入异常）：如某个部门无人借书，则该部门信息无法存入
Delete anomaly（删除异常）：如某个部门的人将书全部还清，则该部门信息被全部删除

关系模式

Def：由五部分组成，是一个五元组： $R (U, D, D O M, F)$

关系名 $R$ 是符号化的元组语义
$U$ 为一组属性
$D$ 为属性组 $U$ 中的属性所来自的域
$D O M$ 为属性到域的映射
$F$ 为属性组 $U$ 上的一组数据依赖

由于 $D$ 、 $D O M$ 与模式设计关系不大，因此在本章中把关系模式看作一个三元组： $R{\lt}U,F{\gt}$

第一范式： 作为二维表，关系要符合一个最基本的条件：每个分量必须是不可分开的数据项。满足了这个条件的关系模式就属于第一范式（1NF）

数据依赖

多值依赖（MVD，Multi-Valued Dependency）（将在8.6节介绍）

函数依赖（FD，Functional Dependency）

Def：设 $R (U)$ 是一个属性集 $U$ 上的关系模式， $X$ 和 $Y$ 是 $U$ 的子集。若对于 $R (U)$ 的关系实例的任意两个可能的元组 $r 1$ 、 $r 2$ ，若 $r 1 [X] = r 2 [X]$ ，则 $r 1 [Y] = r 2 [Y]$ ；或者，若 $r 1 [Y]$ 不等于 $r 2 [Y]$ ，则 $r 1 [X]$ 不等于 $r 2 [X]$ ；称 $X$ 决定 $Y$ ，或者 $Y$ 依赖 $X$ ，记为 $X{\rightarrow}Y$ 。其中 $X$ 称为这个函数依赖的决定因素。

（相互依赖记为 $X{\leftrightarrow}Y$ ， $Y$ 不依赖于 $X$ 记为 $X{\nrightarrow}Y$ ）

（就是有种 $X$ 对于 $Y$ 来说是主键的感觉，这个箭头可以看作是数理逻辑中的“蕴含“，元组再某个属性组上取值相同时为真，不同时为假，则 $X{\rightarrow}Y$ 的意义与函数依赖相同）

Attention：函数依赖不是某个关系实例应当满足的条件，而是所有关系模式 $R$ 下所有关系实例均要满足的约束条件，即一个关系 $r$ 满足 $X{\rightarrow}Y$ 和在一个关系模式 $R$ 上 $X{\rightarrow}Y$ 成立是不同的

平凡函数依赖：当 $Y{\subseteq}X$ 时，显然 $X{\rightarrow}Y$ ，称为平凡函数依赖；反之，若 $Y{\nsubseteq}X$ 时且 $X{\rightarrow}Y$ ，则称为 非平凡函数依赖

（平凡函数依赖没有什么特别的语义，我们所要求的语义都是非平凡函数依赖）

完全函数依赖：在 $R (U)$ 中，若 $X{\rightarrow}Y$ ，且对于 $X$ 的任意一个真子集 $X'{\subset}X$ ，都有 $X'{\nrightarrow}Y$ ，则称 $Y$ 对 $X$ 完全函数依赖；反之称为部分函数依赖

（部分依赖就是说 $X$ 作为 $Y$ 的“主码”有点冗余，其实不用那么多字段就可以决定 $Y$ 的不同）

（部分函数依赖是产生储存异常的内在原因）

传递函数依赖： $X$ 、 $Y$ 、 $Z$ 是关系 $R$ 中互不相同的属性集合，若有 $X{\rightarrow}Y$ ， $Y{\rightarrow}Z$ ，（ $Y{\nrightarrow}X$ ， $Z{\not\subseteq}Y$ ）则称 $Z$ 传递函数依赖于 $X$ 。（若同时又 $Y{\rightarrow}X$ ，则 $Z$ 实际上是直接依赖于 $X$ ）

（注意：每个部份函数依赖都是传递函数依赖，即 $X{\rightarrow}X'{\to}Y$ ）

码

超码：对于 $R{\lt}U,F{\gt}$ ， $X{\subseteq}U$ ，若 $F D$ 上成立 $X{\rightarrow}U$ ，则称 $X$ 是 $R$ 的一个超码

候选码：对超码 $X$ ，若不存在 $X$ 的真子集 $X'{\subset}X$ ，使得 $X'{\rightarrow}U$ ，则称 $X$ 是 $R$ 的一个候选码

（候选码就是最小的超码，适合用来做主键，候选码中的属性称作 主属性，其他称为非主属性）

全码：整个属性集 $U$ 是候选码，称为全码（all-key）

外码：定义关系模式 $R$ 中属性或属性组 $X$ 并非 $R$ 的码，但 $X$ 是另一个关系模式的码，则称 $X$ 是 $R$ 的外部码

有损分解（A Lossy Decomposition）：

Suppose we decompose
employee(ID, name, street, city, salary)
into
employee1 (ID, name)
employee2 (name, street, city, salary)

无损分解（A Lossles Decomposition）：

无损分解

关系 $R{\lt}U,F{\gt}$ 分解为 $R_1$ 和 $R_2$ ，当且仅当 $R_1{\cap}R_2{\to}R_1{\,}{\in}{\,}F^+$ 或 $R_1{\cap}R_2{\to}R_2{\,}{\in}{\,}F^+$

8.2 原子域和第一范式（Atomic Domains and First Normal Form）

范式（Normal Form，NF）：是符合某一种级别的关系模式的集合

范式的种类：

第一范式（1NF）
第二范式（2NF）
第三范式（3NF）
BC范式（BCNF）
第四范式（4NF）
第五范式（5NF）

第一范式

Def：作为二维表，关系要符合一个最基本的条件：每个分量必须是不可分开的数据项。满足了这个条件的关系模式就属于第一范式（1NF）

（相对应的情况是多值属性、组合属性，例如 "CS101"可以被拆分为院系CS和课程号101）

第二范式

（第一范式会出现的问题在于，关系模式中一个或一些（但不是候选码中的全部）主属性就可以直接决定一些属性，并能与它们一起拆分开来形成一张新的表；第二范式解决了这个问题）

Def：若 $R{\subseteq}1NF$ ，且每一个非主属性都完全函数依赖于 $R$ 的主码，则 $R{\subseteq}2NF$

（或者说， $R$ 中任何一个非主属性都完全函数依赖于 $R$ 的每一个候选码（因为任何一个候选码都可以作为主键，主键就是从候选码中选一个出来的））

反例：图书馆借阅登记的关系模式 $Borrow(\underline{LCNO}, Name, Dept, \underline{BNO}, Date)$ = {借书证号，借书人姓名，所在部门，图书号，借书日期}，但是借书人姓名只依赖于借书证号，而不用同时依赖于图书登录号（属于第一范式而不属于第二范式）

Example：不属于第二范式会产生的异常：（以 $S-L-C(\underline{Sno},Sdept,Sloc,\underline{Cno},Grade)$ 为例）

插入异常：如果插入一个还没选课的新学生，则主属性 $C n o$ 就会为空，插入失败
删除异常：如果有个学生只选了一门课，现在他不选了，则这个学生的信息就丢失了
修改复杂：比如一个学生转专业，就会重复修改很多的元组

出现原因：例子中有两类非主属性：

$G r a d e$ ：它对码完全函数依赖
$S d e p t$ 、 $S l o c$ ：它们对码不是完全函数依赖，而是 $Sno{\,}{\rightarrow}Sdept$ 、 $S l o c$

解决方法：用投影分解把关系模式 $S - L - C$ 分解成两个关系模式

$S C (S n o, C n o, G r a d e)$
$S - L (S n o, S d e p t, S l o c)$

总结：当关系模式 $R$ 不是 “good form” 的时候，将其进行分解，从而：

每个分解成的子关系模式 $R_i$ 都是 “good form”
每个分解成的子关系模式 $R_i$ 可以无损连接分解（有损连接分解例子参考上面的表格）

8.3 使用函数依赖进行分解（Decomposition Using Functional Dependencies）

函数依赖

（第二范式会出现的问题在于，某些非主属性虽然依赖于某个候选码，但这种依赖不是直接的，而是通过传递依赖得到的，因此仍然会出现冗余）

换种说法更好理解

（第二范式会出现的问题在于，关系模式中的一些属性（这些属性并不完全包含某个候选码）就可以直接决定一些属性，并能与它们一起拆分开来形成一张新的表；第三范式解决了这个问题）

第三范式

Def 1：设 $R$ 是一个关系模式，如果 $R{\in}1NF$ ，并且 $R$ 中不存在任何非主属性传递函数依赖于 $R$ 的某个候选关键字（即候选码），则称 $R$ 是第三范式的

Def 2：设 $R$ 是一个关系模式， $R{\in}1NF$ ，对于 $R$ 上函数依赖的闭包 $F^+$ 中的所有函数依赖 $\alpha\to \beta$ ，以下一项至少成立：

$\alpha\to \beta$ 是平凡函数依赖
$\alpha$ 是 $R$ 的一个超码
$\beta - \alpha$ 中的每个属性都包含在 $R$ 的一个候选码中（每个属性可以包含在不同的候选码中，不一定是同一个）（换句话说， ${\beta}-{\alpha}$ 中的属性都是主属性）

（Def 2 更好理解，对于情况 3，若有一个属性 $A{\,}{\in}{\,}{\beta}-{\alpha}$ 且 $A$ 不是主属性，那么存在传递函数依赖候选码 $\to\alpha\to A$ ）

数学描述：设关系模式 $R{\lt}U,F{\gt}∈1NF$ ，若 $R$ 中不存在这样的码 $X$ 、属性组 $Y$ 及非主属性 $Z$ （ $Y{\not\subset}Z$ ）, 使得 $X \to Y$ ， $Y \to Z$ 成立， $Y{\nrightarrow}X$ 不成立，则称 $R{\lt}U,F{\gt} ∈ 3NF$

Th：设 $R$ 是一个关系模式，如果 $R{\in}3NF$ ，则必有 $R{\in}2NF$

反例：设关系模式 $R =$ （账号，姓名，储蓄额，收储员，储蓄所名），其中账号是主码；“储蓄所名” 通过 “收储员” 依赖于 “账号”；（属于第二范式而不属于第三范式）

正例：图书馆借阅登记的关系模式 $Borrow(\underline{LCNO}, Name, Dept, \underline{BNO}, Date)$ = {借书证号，借书人姓名，所在部门，图书号，借书日期} 的一种分解方案： $C A R D (L C N O, N a m e, D e p t)$ 和 $L O A N S (L C N O, B N O, D a t e)$ 是 $3 N F$

（第三范式解决了第二范式的问题，但是还有新的问题，即主属性对码可能存在部分函数依赖和传递函数依赖）

BCNF

Def 1：设 $F$ 是关系模式 $R$ 上的 $F D$ 集，如果 $R{\,}{\in}{\,}1NF$ ，并且在 $R$ 中无任何属性传递函数依赖于 $R$ 中的任何一个码，则称关系模式 $R$ 是属于 $B C N F$ 的

Def 2：设 $F$ 是关系模式 $R$ 上的 $F D$ 集，如果对于任一属性集 $Y{\subset}R$ 和任一属性 $A{\,}{\in}{\,}R-Y$ 。只要 $Y{\to}A$ 成立， $Y$ 必定是 $R$ 的某个超码，则称关系模式 $R$ 是属于 $B C N F$ 的

（Def 2 比较好，说明BCNF的任何一条非平凡函数依赖的左部都可以作为超码）

Th：设 $R$ 是一个关系模式，如果 $R{\in}BCNF$ ，则必有 $R{\in}3NF$

性质：

所有非主属性都完全函数依赖于每个候选码
所有主属性都完全函数依赖于每个不包含它的候选码
没有任何属性完全函数依赖于非码的任何一组属性

（ $B C N F$ 消除了第三范式的问题，实际上已经消除了插入异常和删除异常，即消除了所有基于函数依赖能够发现的冗余，实现了模式的彻底分解，达到了最高的规范化程度）

（也就是说，看起来没啥问题、不能再拆的一般就是 $B C N F$ ）

反例：邮政编码关系模式 $R (C i t y, S t r e e t, Z i p)$ ， $F D$ 集 $\{ \{City,Street\}{\to} Zip,{\,}Zip{\to}City\}$ （城市里有很多区县乡镇，每个区县乡镇的邮政编码相同，每个区县乡镇有很多街道，但一般来说同一个区县乡镇内不会有重名的街道）；显然 $R$ 中不存在非主属性，因为 ${City,Street\}$ 和 ${Zip, Street\}$ 都是 $R$ 的候选码，因此 $R{\,}{\in}{\,}3NF$ ，然而 $C i t y$ 部分函数依赖于 ${Zip, Street\}$ ，因此也是传递函数依赖于 ${Zip, Street\}$ ，因而 $R{\,}{\notin}{\,}BCNF$ （属于第三范式而不属于 $B C N F$ ）

正例 1：关系模式 $C (C n o, C n a m e, P c n o)$ ，只有一个码 $C n o$ ，显然它是唯一的决定因素，因此 $C{\,}{\in}{\,}BCNF$

正例 2：关系模式 $S J P (S, J, P)$ , 中， $S$ 是学生， $J$ 表示课程， $P$ 表示名次，假设不存在并列名次，则 $(S, J)$ 和 $(J, P)$ 都可以作为候选码，且没有其他决定因素，因此 $SJP{\,}{\in}{\,}BCNF$

8.4 函数依赖理论（Functional-Dependency Theory）

函数依赖的闭包

Def：关系模式 $R{\lt}U,F{\gt}$ 中任意一个关系 $r$ ，若函数依赖 $X{\to}Y$ 都成立，则称 $F$ 逻辑蕴含 $X{\to}Y$

Def：设 $F$ 是一个函数依赖集， $F$ 的闭包是被 $F$ 逻辑蕴含的所有函数依赖的集合，记作 $F^+$

Armstrong 公理系统

自反（reflexivity）：如果 ${\beta}{\subseteq}{\alpha}$ ，则 ${\alpha}{\to}{\beta}$
增补（augmentation）：如果 ${\alpha}{\to}{\beta}$ ，则 ${\gamma}{\alpha}{\to}{\gamma}{\beta}$
传递（transitivity）：如果 ${\alpha}{\to}{\beta}$ 且 ${\beta}{\to}{\gamma}$ ，则 ${\alpha}{\to}{\gamma}$

（Armstrong公理系统是有效且完善的，反复使用可以得到闭包 $F^+$ ）

（自反律的使用并不依靠于 $F^+$ ）

由上面三条基本公理，还可以得到一些推论：

合并（union）：如果 ${\alpha}{\to}{\beta}$ 且 ${\beta}{\to}{\gamma}$ ，则 ${\alpha}{\to}{\beta}{\gamma}$
分解（decomposition）：如果 ${\alpha}{\to}{\beta}{\gamma}$ ，则 ${\alpha}{\to}{\beta}$ 且 ${\beta}{\to}{\gamma}$
伪传递（pseudotransitivity）：如果 ${\alpha}{\to}{\beta}$ 且 ${\gamma}{\beta}{\to}{\delta}$ ，则 ${\alpha}{\gamma}{\to}{\delta}$

引理 1： $X\to A_1A_2...A_k$ 的重要条件是 $X\to A_i,{\,}(i=1,2,...,k)$ 成立

（我自己加一条：如果 ${\alpha}{\to}{\beta}$ ，则 ${\alpha}\gamma{\to}{\beta}$ ）

属性集的闭包

Def 1：设 ${\alpha}$ 是一个属性集，在函数依赖 $F$ 下被 ${\alpha}$ 确定的所有属性称为 $F$ 下 $\alpha$ 的闭包，记为 ${\alpha}^+$

Def 2：设 $F$ 为属性集 $U$ 上的一组函数依赖， $X$ 、 $Y{\,}{\subseteq}{\,}U$ ， $X_F^+=\{A{\,}|{\,}X\to A$ 能由 $F$ 根据Armstrong公理导出 $\}$ ， $X_F^+$ 称为属性集 $X$ 关于函数依赖集 $F$ 的闭包

引理 2：设 $F$ 为属性集 $U$ 上的一组函数依赖， $X$ 、 $Y{\,}{\subseteq}{\,}U$ ，则 $\to Y$ 能由 $F$ 根据 Armstrong公理导出的充分必要条件是： $Y{\subseteq} X_F^+$

（由引理 2可知，要判断是否 $\to Y$ ，只需先求出 $X_F^+$ ，再判断是否 $Y{\subseteq} X_F^+$ ）

算法：从 $result={\alpha}$ 开始，把能从 $r e s u l t$ 的子集推导出来的属性全部加入 $r e s u l t$ （就是遍历 $F$ 中的每条函数依赖，若左部属于 $r e s u l t$ ，则将其右部加入 $r e s u l t$ ；反复遍历，直至 $r e s u l t$ 不再改变为止）

例： $U=\{A, B, C, D, E\}$ ； $F={AB→C, B→D, C→E, EC→B, AC→B}$

则 $AB)_F^+=ABCDE$

作用：

若 ${\alpha}^+$ 包括了所有属性，那么 ${\alpha}$ 可作为该关系的主码
计算 ${\alpha}^+$ 同样也可以用作计算 $F^+$ ，因为可以得到 ${\alpha}{\to}{\gamma}$ ，其中 ${\gamma}{\subseteq}{\alpha}$

函数依赖的保持、等价与覆盖

Def：设 ${\rho}={R_1,R_2,...R_k}$ 是关系模式 $R={\lt}W,F{\gt}$ 的一个分解；把 ${\pi}_{R_i}(F)=\{X{\to}Y:{\,}X{\to}Y{\,}{\in}{\,}F^+$ 且 $X{\cup}Y{\,}{\subseteq}{\,}R_i\}$ 称为 $F$ 到 $R_i$ 上的投影。如果所有的投影的并集再去闭包还是原来的函数依赖，即 $({\pi}_{R_1}{\cup}{\pi}_{R_2}{\cup}...{\cup}{\pi}_{R_k})^+=F^+$ ，则称 ${\rho}$ 是保持 $F D$ 集 $F$ 的

（简单来说，就是把一个关系模式拆开来以后，原来的所有依赖是不是都还在（可能分散在各个拆开后的关系中），如果都在就叫保持 $F D$ 集；有点像等价类的拆分？）

Def：若关系模式 $R$ 上的两个两个 $F D$ 集合 $F$ 和 $G$ 有 $F^+=G^+$ ，则称 $F$ 和 $G$ 是等价的，记为 $F{\equiv}G$

Def：若 $F D$ 集 $F{\equiv}G$ ，则称 $G$ 是 $F$ 的一个覆盖

引理 3： $F^+=G^+$ 的充分必要条件是 $F{\,}{\subseteq}{\,}G^+$ 和 $G{\,}{\subseteq}{\,}F^+$

极小函数依赖集

Def：如果函数依赖集 $F$ 满足以下条件，称 $F$ 为一个 极小函数依赖集 ，亦称为 最小依赖集 或 最小覆盖 ：

$F$ 中任一函数依赖的右部仅含有一个属性
$F$ 中不存在这样的函数依赖 $X\to A$ ，使得 $F$ 与 $F-\{X\to A\}$ 等价
$F$ 中不存在这样的函数依赖 $X\to A$ ， $X$ 有真子集 $Z$ 使得 $F-\{X\to A\}{\cup}\{Z\to A\}$ 与 $F$ 等价

（第二条代表 $F$ 中的函数依赖均不能由 $F$ 中其他函数依赖导出；第三条代表 $F$ 中各函数依赖左部均为最小属性集，不存在冗余）

Th：任一函数依赖集 $F$ 均等价于一个极小函数依赖集，记为 $F_m$

算法：

① 遍历 $F$ 中每一条函数依赖 $X\to Y$ ，若 $Y=A_1A_2...A_k(k{\geq}2)$ ，则用每一个 $X\to A_i$ 代替

② 遍历 $F$ 中每一条函数依赖 $X\to A$ ，令 $G=F-\{X\to A\}$ ，若 $A{\in}X_G^+$ ，则删除此函数依赖

③ 遍历 $F$ 中每一条函数依赖 $X\to A$ ，若 $X=B_1B_2...B_m(m{\geq}2)$ ，则逐一考察 $B_i$ ，若 $A{\,}\in{\,}(X-B_i)_F^+$ ，则用 $(X-B_i)\to A$ 取代 $X\to A$

（ $F$ 的最小依赖集 $F_m$ 并不一定是唯一的，它与具体的函数依赖以及 $X\to A$ 中 $X$ 各属性的处置顺序有关）

例： $F=\{A\to B,{\,}B\to A,{\,}B\to C,{\,}A\to C,{\,}C\to A\}$ ， $F_{m1}$ 和 $F_{m2}$ 都是最小依赖集：

$F_{m1} = \{A\to B,{\,}B\to{\,}C,{\,}C\to A\}$
$F_{m2}=\{A\to B,{\,}B\to A,{\,}A\to C,{\,}C\to A\}$

正则覆盖

Def：如果去除某一函数依赖中的一个属性不改变整个函数依赖集的闭包，则称该属性对于该函数依赖是无关的（ extraneous ）

算法：对于函数依赖 $\alpha\to\beta$ ，想要判断 $A$ 对于该函数依赖而言是否是无关的：

① 若 $A{\,}{\in}{\,}\alpha$ ，则计算 $(\alpha-A)^+$ ，若包括 $\beta$ ，则显然 $A$ 对于 $\alpha\to\beta$ 来说是无关的；（说明不需要 $A$ 也可以推出 $\beta$ ）

② 若 $A{\,}{\in}{\,}\beta$ ，则计算 ${\alpha}^+$ ，但不使用 $\alpha\to\beta$ ，而用 $\alpha\to(\beta-A)$ 代替，看看最后包不包括 $A$ ，若包括则无关；（说明 $\alpha$ 依据其他函数依赖就可以推出 $A$ 来了，这里不需要再写一遍）

例 1：在函数依赖集 $F=\{A{\to}C,AB{\to}C\}$ 中，属性 $B$ 对于 $AB{\to}C$ 来说是无关的，可以直接 $A{\to}C$

例 2：在函数依赖集 $F=\{A{\to}C,AB{\to}CD\}$ 中，属性 $C$ 对于 $AB{\to}CD$ 来说是无关的，可以直接 $AB{\to}D$

（无关属性总是会出现在箭头的左边或右边，不可能不出现的哈，别理解错了）

Def：函数依赖集 $F$ 的 正则覆盖（Canonical Cover），为等价于 $F$ 的最小的函数依赖集，记为 $F_c$

算法：同上述求无关属性算法的两种分类，遍历 $F$ 中的每一条函数依赖 $\alpha\to\beta$ ：

① 若 $A{\in}\alpha$ 且 $A$ 对于 $\alpha\to\beta$ 是无关属性，则去掉 $F$ 中的 $\alpha\to\beta$ ，用 $(\alpha-A)\to\beta$ 代替；

② 若 $A{\in}\beta$ 且 $A$ 对于 $\alpha\to\beta$ 是无关属性，则去掉 $F$ 中的 $\alpha\to\beta$ ，用 $\alpha\to(\beta-A)$ 代替；

③ 去除所有无关属性后，若出现 $\alpha\to\beta_1$ 和 $\alpha\to\beta_2$ ，则用 $\alpha\to(\beta_1 \cup \beta_2)$ 代替这两条函数依赖

特点：

所有函数依赖都不含无关属性
$F_c$ 中每条函数依赖的左部是唯一的，即不存在 ${\alpha}_1{\to}{\beta}_1$ 和 ${\alpha}_1{\to}{\beta}_1$ 但 ${\alpha}_1={\alpha}_2$

（所以转化为正则覆盖的本质是合并相同的左部，去掉无关属性）

例： $R = (A, B, C)$ ， $F=\{A{\to}BC,{\,}B{\to}C,{\,}A{\to}B,{\,}AB{\to}C\}$ ，

则 $F_c=\{A{\to}B,{\,}B{\to}C\}$

（极小函数依赖集的算法和正则覆盖使用去除无关属性的算法本质上是一样的，只是表述不同，尤其是在于正则表达式的左部要合并，而极小函数依赖集的右部要拆开）

无损分解

Def：将关系模式 $R$ 分解为 $R_1$ 、 $R_2$ 时没有信息损失，则称为 无损分解 （Lossless-join Decomposition）

要求：对于 $R$ 中的所有实例 $r$ ，都有 $r=r_1{\,}{\,}natrual{\,}join{\,}{\,}r_2$ ：

充分条件：以下依赖至少有一个在 $F^+$ 中：

$R_1{\cap}R_2{\to}R_1$
$R_1{\cap}R_2{\to}R_2$

上述只是充分条件，当作用在关系模式 $R$ 上的所有约束都是函数依赖时，上述条件就是必要条件

（也就是说上述条件只能确保函数依赖的信息不被丢失，至于其他的信息就不一定了hhh）

保持依赖

Def：将 $R$ 分解为 $R_1,R_2,...,R_n$ ，函数依赖集 $F$ 在 $R_i$ 上的限定是 $F^+$ 中所有只包含 $R_i$ 中属性的函数依赖集合 $F_i$

Def：将 $R$ 分解为 $R_1,R_2,...,R_n$ ，若所有限定有 $(F_1{\cup}F_2{\cup}...{\cup}F_n)^+=F^+$ ，则称该分解为 保持依赖（dependency preserving）的分解

算法 1：朴素算法，先计算 $F^+$ ，再计算 $(F_1{\cup}F_2{\cup}...{\cup}F_n)^+$ ，最后比较二者是否相等（因为要计算 $F^+$ ，所以开销很大）

算法 2：验证充分性：若 $F$ 中每个函数依赖都可以在某个子关系 $R_i$ 上得到验证，那么显然是个保持依赖的分解

例：关系模式 $R = (A, B, C)$ ，函数依赖集 $F={A{\to}B,B{\to}C}$

则 $R_1=(A,B)$ 和 $R_2=(B,C)$ 就是一个保持依赖的分解，可以用算法2验证；

注意：无损分解强调对于每一个具体的关系实例，拆分以后再自然连接可以得到原来的关系实例；保持依赖强调对于拆分以后的关系模式，仍然可以推导出原来的所有函数依赖；一个是实例层面的要求，一个是理论上的要求；

8.5 函数依赖的算法（Algorithms for Functional Dependencies）

BCNF分解

判断一个关系 R 是否属于 BCNF

算法：遍历 $F$ 中所有 $\alpha{\to}\beta$ ，计算 ${\alpha}^+$ ，若包含所有的属性，则满足条件；若有一个不包含，则不属于 $B C N F$

注意：如果 $F$ 中没有函数依赖违反 $B C N F$ ，则 $F^+$ 中也不会由函数依赖违反 $B C N F$ ，所以只需对 $F$ 中和的函数依赖进行检查；但判断 $R$ 的一个分解 $R_i$ 是否属于 $B C N F$ ，只用 $F$ 就不够了

反例： $R = (A, B, C, D, E)$ ， $F={A\to B,{\,}BC\to D}$ ；若将 $R$ 分解为 $R_1=(A,B)$ 和 $R_2=(A,C,D,E)$ ，则用这里的算法，会误认为 $R_2$ 满足 $B C N F$ ；

事实上， $AC\to D {\in}{\,}F^+$ ，所以 $R_2$ 是不满足 $B C N F$ 的

注意： $B C N F$ 的要求非常简单，就是所有非平凡函数依赖的左部都是超码

判断一个关系分解后是否属于BCNF

算法：对分解后的 $R_i$ 中属性的每个属性子集 $\alpha$ ，确保 $\alpha$ 在原来 $R$ 的函数依赖集 $F$ 下的闭包 $\alpha^+$ 要么不包含 $R_i-\alpha$ 的属性，要么包含 $R_i$ 中的所有属性

注意：如果违反了上面的条件，可以得到 $\alpha\to(\alpha^+-\alpha){\cap}R_i{\in}F^+$ ，则违反了 $B C N F$

（因为这个时候意味着 $\alpha^+$ 并不包含 $R_i$ 中的所有元素，即 $\alpha$ 不能作为 $R_i$ 的超码；但却出现了 $\alpha$ 在左部的函数依赖，与 $B C N F$ 的 Def 2 矛盾）

BCNF分解算法

以下算法可以分解一般的关系模式 $R$ 并保证最终为 $B C N F$ 范式：

① 计算 $F^+$ ；

② 遍历每一个不属于 $B C N F$ 的 $R_i$ ，若有：

$\alpha{\,}{\in}{\,}R_i$
$\alpha\to\beta$ 在 $R_i$ 上成立
$\alpha\cap\beta=\varnothing$

则用 $R_i-\beta$ 和 $(\alpha,\beta)$ 替换掉原来的 $R_i$

注意：我们在判定某个 $R_i$ 不属于 $B C N F$ 的时候就已经得到 $\alpha$ 了，相当于我们是在用违反 $B C N F$ 的依赖在进行分解

例： $R = (A, B, C)$ ， $F=\{A\to B,{\,}B{\to}C\}$

则显然 $A$ 是码，但还存在 $B\to C$ ，于是可以分解为 $(A, B)$ 和 $(B, C)$

反例： $R = (J, K, L)$ ， $F=\{JK\to L,{\,}L{\to}K\}$ ， $R$ 不是 $B C N F$ ，但是任何分解都不能保证 $JK\to L$ 了

（虽然总是可以无损分解（除函数依赖外）为 $B C N F$ ，但是函数依赖无法总是保留）

（这样的反例启示我们，有时候并不能分解为 $B C N F$ ，引出了下面的 $3 N F$ 分解）

3NF分解

（上面的反例说明，有时候我们需要保留一些冗余，来分解为无损分解、保持依赖的 $3 N F$ （上面的 $l_1,k_1)$ 就是在重复））

判断一个关系 R 是否属于 3NF

算法：遍历 $F$ 中的每个函数依赖 $\alpha \to \beta$ ：

计算 $\alpha^+$ ，若包含 $R$ 的所有属性，即为超码，则符合条件
否则，遍历 $\beta$ 中的每个属性，判断是否都包含于某个候选码中；若是，则符合条件；

（算法的原理在于，第三范式已经解决了非主属性传递依赖于码的问题，但是还没有解决主属性之间的依赖问题；因此若 $\alpha$ 不是超码，则 $\beta$ 应该是主属性的集合）

（只要遍历 $F$ 中的函数依赖就可，不用计算 $F^+$ ）

（由于要计算候选码，因此判定非常复杂，应该是个NP问题；但是分解为 $3 N F$ 却是P类问题）

3NF 分解算法

以下算法可以对一般关系模式 $R$ 在保持依赖的情况下无损分解为 $3 N F$ ：

① 计算 $F_c$ ；

② 遍历 $F_c$ 中每一条函数依赖 $\alpha \to \beta$ ，组合成 $\alpha \beta$ 作为 $R_i$ 加入；

③ 若没有一个 $R_i$ 包含原来 $R$ 的任一候选码，则任意选 $R$ 的一个候选码作为一个新的 $R_i$ 加入；

④ 除冗：若有某个关系模式 $R_j$ 包含于 $R_i$ ，则删除 $R_j$ ；最后丢弃原来的 $R$ ，将所有 $R_i$ 作为分解结果；

注意：总是可以将任意关系模式保持依赖、无损分解为第三范式！！！

例：设关系模式 $R =$ （账号，储蓄额，收储员，储蓄所名），有函数依赖 $F =$ $\{$

(账号，收储员) $\to$ (储蓄额，储蓄所名)
收储员 $\to$ 储蓄所名
(账号，储蓄所名) $\to$ 收储员 $\}$

（这里假定某个客户在某家银行的负责人，即收储员是唯一的，多对一）

(账号，收储员) 可作为候选码，但是有储蓄所名依赖于收储员间接依赖于这个候选码，因此不是第三范式

计算得到 ${ F_c=\{$

(账号，收储员) $\to$ 储蓄额
收储员 $\to$ 储蓄所名
(账号，储蓄所名) $\to$ 收储员 $\}$

依据上边的算法，可拆分为两张子表：(账号，收储员，储蓄额) 和 (账号，储蓄所名，收储员)

8.6 多值依赖（Multivalued Dependencies ）

（函数依赖只能表示事物之间、事物属性之间一对一或一对多的联系，但还需要多值依赖来表示某事物（或事物属性）与其他多个事物（或事物属性）的相关关系）

Def 像集：设 $R (U)$ 是一个关系， $Y{\in}U$ ；对于 $R$ 的元组中的每一个 $X$ 的值 $x$ ，都存在着某个 $Y$ 值的集合与之相关联，我们称这个 $Y$ 值的集合为 $R$ 中 $x$ 的 $Y$ 像集，记作 $Y_U(x)$ ，即 $Y_U(x)=\{t[Y] {\,}|{\,}t{\in}R$ 且 $t[X]=x\}$

（就比如 $X$ 是教职工， $Y$ 是电话号码，一个教职工有多个电话号码，但一个电话号码只能属于一个教职工）

多值依赖的定义

（多值依赖就是某个属性集合的一个值对应的像集有多个值的关联关系）

Def 1：设 $R (U)$ 是一个关系模式， $Y{\,}{\in}{\,}U$ ， $Z = U - X Y$ ，关系模式 $R$ 上的一个多值依赖是形如 $g:X\to \to Y$ 的一个命题，它的含义是：对于 $R$ 的任一可能的实例关系中的元组的每一个 $X Z$ 的值 $x z$ ，都有 $Y_U(xz)=Y_U(x)$ ，即对于每一个给定的 $X Z$ -值，其 $Y$ -像集的值都仅仅依赖于 $X Z$ -值的 $X$ 分量，而与 $Z$ 分量毫无关系。称在 $R$ 上 $X$ 多值决定 $Y$ ，或 $Y$ 多值依赖于 $X$

Def 2：设 $R (U)$ 是一个关系模式， $Y{\,}{\in}{\,}U$ ， $Z = U - X Y$ ，关系模式 $R$ 上的一个多值依赖是形如 $g:X\to \to Y$ 的一个命题，它的含义是：对于 $R$ 的任一可能的实例关系 $r$ ，如果存在元组 $t,s{\,}{\in}{\,}r$ ，使得 $t [X] = s [X]$ ，则必定存在元组 $u{\,}{\in}{\,}r$ ，使得 $u [X] = t [X] = s [X]$ ，而 $u [Y] = t [Y]$ ， $u [Z] = s [Z]$

（这个很，太抽象了，赶紧先看个例子： $\downarrow$ ）

例： $inst\_info{\,}(ID, child\_name, phone\_number)$

ID	child_name	phone_number
99999	David	512-555-1234
99999	David	512-555-4321
99999	William	512-555-1234
99999	William	512-555-4321

有： $ID\to\to child\_name$ 和 $ID\to\to phone\_number$ ，即 $child\_name$ 属性和 $phone\_number$ 属性分别于 $I D$ 属性多值相关，但二者无关；

引理： $R (U)$ 是个关系模式：

$X\to \to Y$ 当且仅当 $X\to \to U-XY$ ；
$Y^{'} = Y - X$ ，则 $X\to \to Y$ 当且仅当 $X\to \to Y’$ ；
若 $Y{\,}{\subseteq}{\,}X{\,}{\subseteq}{\,}U$ ，则 $X\to \to Y$ ；
若 $U = X Y$ ，则 $X\to \to Y$ ；

函数依赖与多值依赖的关系

① 函数依赖可以被看做是多值依赖的一个子类

② 重要区别：

函数依赖定义， $X\to Y$ 是否成立仅与 $X Y$ 的值有关，不受其他属性值的影响
多值依赖 $X\to \to Y$ 是否成立，不仅要考察 $X Y$ 的值，而且要考察 $U - X Y$ 的值；即，讨论任何一个 $X\to \to Y$ 不能离开它的论域，论域变化， $X\to \to Y$ 满足性就要改变

（多值依赖考虑的比较多，例如 $R ($ 班级，学员，课程 $)$ ，则班级 $\to \to$ 学员，班级 $\to \to$ 课程；如果扩展该模式， $R^{'} ($ 班级，学员，课程，成绩 $)$ ，则上述两个多值依赖都不再成立。论域变化，属性值之间关系不再满足多值依赖的定义。）

注意：若 $Y\to Z$ ，则 $Y\to \to Z$

性质

Th：设 $r$ 是关系模式 $R (U)$ 的一个实例关系， $Y{\,}{\in}{\,}U$ 而 $Z = U - X Y$ ，则关系 $r$ 满足MVD $X\to \to Y$ 当且仅当 $r$ 可以联接无损地分解到两个关系模式 $R 1 = X Y$ 和 $R 2 = X Z$ 上

检验方法：检验某个关系 $r$ 是否满足多值依赖 $X\to \to Y$ ：把 $r$ 投影到 $X Y$ 和 $X Z$ （ $Z$ 就是上面的补集）上，然后对投影做自然连接；若结果还是 $r$ （即无损连接），则有 $X\to \to Y$ ，否则不成立；

（比如上边那个例子，分解为 $ID,child\_name)$ 和 $ID,phone\_number)$ ，再连接起来还是原来的表，说明多值依赖成立）

多值依赖推导公理：（单一的MVD环境）设 $R (U)$ 是一个关系模式， $Z{\in}U$ ，则

MVD0（补规则） $X\to \to Y$ ，则 $X\to \to U-XY$ ；
MVD1（自反公理）若 $Y{\,}{\subseteq}{\,}X{\,}{\subseteq}{\,}U$ ，则 $X\to \to Y$ ；
MVD2（增广规则）若 $V{\subseteq}W$ ， $X\to \to Y$ ，则 $XW\to \to YV$ ；
MVD3（传递规则）若 $X\to \to Y$ ， $Y\to \to Z$ ，则 $X\to \to Z$ ；
MVD4（并规则）若 $X\to \to Y$ ， $X\to \to Z$ ，则 $X\to \to YZ$ ；
MVD5（投影规则）若 $X\to \to Y$ ， $X\to \to Z$ ，则 $X\to \to Y{\cap}Z$ ；
MVD6（伪传递规则）若 $X\to \to Y$ ， $WY\to \to Z$ ，则 $XW\to \to Z-YW$

（MVD 0、1、3 就可以推出其他公式）

第四范式

定义

Def 平凡多值依赖：若 $\beta{\,}{\subseteq}{\,}\alpha$ 或者 ${\beta}{\,}{\cup}{\alpha}=R$ ，则称 $\alpha \to \to \beta$ 称为平凡的多值依赖

Def：设 $R$ 是一个关系模式，如果对于在 $R$ 上成立的每一个非平凡 $M V D$ $X\to \to Y$ ， $X$ 都是 $R$ 的一个超码，则称 $R$ 是属于第四范式的，记作 $R{\,}{\in}{\,}4NF$

Def 闭包：（闭包的扩展定义） $D$ 是函数依赖和多值依赖的集合， $D$ 的闭包 $D^+$ 是由 $D$ 逻辑蕴涵的所有函数依赖和多值依赖的集合

Def： $D$ 在 $R_i$ 上的限定集合 $D_i$ 定义为：

$D^+$ 中所有只含 $R_i$ 中属性的函数依赖；
所有形如 $\alpha \to \to (\beta{\cap}R_i)$ 的多值依赖，其中 $\alpha{\subseteq}R_i$ 且 $\alpha \to \to \beta {\,}{\subseteq}{\,}D^+$

注意：第四范式一定属于 $B C N F$

第四范式分解

以下算法可以无损分解为 $4 N F$ ：

① 计算 $D^+$ ；

② 对每一个不属于第四范式的子关系模式 $R_i$ ，令 $\alpha \to \to \beta$ 为在 $R_i$ 上成立的非平凡多值依赖，使得 $\alpha \to R_i$ 不属于 $D_i$ ，且 $\alpha {\,}{\cap}{\,} \beta=\varnothing$ ，则使用 $R_i- \beta$ 和 $(\alpha,{\,}\beta)$ 代替 $R_i$ ；