1. 问题的提出
一个关系模式应当是一个五元组:
R(U,D,DOM,F)
这里:
- 关系R是符号化的元组语义。
- U为一组属性。
- D为属性组U中的属性所来自的域。
- DOM为属性到域的映射。
- F为属性组U上的一组数据依赖。
由于D,DOM与模式设计关系不大,因此在本章中把关系模式看作是一个三元组:
R<U,F>
当且仅当U上的一个关系r满足F时,r称为关系模式R<U,F>的一个关系。
关系是符合一个最基本的条件:每一个分量必须是不可分的数据项。满足了这个条件的关系模式就属于第一范式(1NF)。
-
数据依赖
数据依赖是一个关系内部属性与属性之间的一种约束关系。这种约束关系是通过属性间值是否相等体现出来的数据间的相关联系。它是现实世界属性间相互联系的抽象,是数据内在的性质,是语义的体现。许多种类型的数据依赖中,最主要的是函数依赖(FD)和多值依赖(MVD)。
-
关系模式存在的问题
(1) 数据冗余太大;
(2) 更新异常;
(3) 插入异常;
(4) 删除异常。
一个“好”的关系模式应当不会发生插入异常,删除异常,更新异常,数据冗余应尽可能少。
2. 规范化
-
函数依赖
(1) 定义
设R(U)是属性集u上的关系模式,X,Y是U的子集。若对于R(U)的任意一个可能的关系r,r中不可能存在两个元组在X上的属性值相等,而在Y上的属性值不变,则称X函数确定Y或Y函数确定依赖于X,记作X→Y。
若X→Y,则X称为这个函数依赖的决定属性组,也称为决定因素。
若X→Y,Y→X,则记作X←→Y。
若Y不函数依赖X,则记作X→/Y。
(2) 非平凡的函数依赖和平凡的函数依赖
X→Y,但Y∉X,则称X→Y是非平凡的函数依赖。
X→Y,但Y∈X,则称X→Y是平凡的函数依赖。
(3) 完全依赖,部分依赖和传递依赖
- 码
(1) 候选码
设K为R<U,F>的属性或属性组合,,若K完全依赖U,则K为R的候选码。
(2) 主码
若候选码多于一个,则选定其中的一个为主码。包含在任何一个候选码中的属性称为主属性;不包含在任何候选码中的属性称为非主属性或非码属性。
(3) 外码
关系模式R中属性或属性组X并非R的码,但X是另外一个关系模式的码,则称X是R的外部码,也称外码。
- 范式
关系数据库中的关系是要满足一定要求的,满足不同程度要求的为不同范式。满足最低要求的交第一范式,简称1NF;在第一范式中满足进一步要求的为第二范式,其余以此类推。范式是指符合某一种级别的关系模式的集合,R为第几范式可以写成R∈xNF。各种范式之间的关系是:5NF⊂4NF⊂3NF⊂2NF⊂1NF,如图所示:
一个低一级范式的关系模式通过模式分解可以转换为若干个高一级范式的关系模式的集合,这种过程就教规范化。
-
2NF
2NF的定义:
若R∈1NF,且每一个非主属性完全函数依赖于任何一个候选码,则R∈2NF。
简单点说就是:在第一范式的基础上,消除了非主属性对码的部分函数依赖。
一个关系模式R不属于2NF,就会产生以下几个问题:
(1) 插入异常;
(2) 删除异常;
(3) 修改复杂。
-
3NF
定义:关系模式R<U,F>中若不存在这样的码x,属性组y及非主属性z(z∈y),使得x→y成立,y→x成立,y→/x,则称R<U,F>∈3NF。
若R∈3NF,则每一个非主属性即不部分依赖于码又不传递依赖于码。
简单点说就是:在第二范式的基础上,进一步消除了非主属性对码的传递函数依赖。
-
BCNF
定义
关系模式R<U ,F>∈1NF,若当X→Y且Y∉X时X必含有码,则R<U,F>∈BCNF。
即关系模式R<U,F>中,若每一个决定因素都包含码,则R<U,F>∈BCNF。
简单点说就是:在第三范式的基础上,进一步消除了主属性对码的部分函数依赖和传递函数依赖。
由BCNF的定义可以得出结论,一个满足BCNF的关系模式有:
a . 所有非主属性对每一个码都是完整函数依赖。
b . 所有的主属性对每一个不包含它的码,也是完整函数依赖。
c . 没有任何属性完整函数依赖于非码的任何一组属性。
-
多值依赖
定义
设R(U)是属性集U上的一个关系模式。X,Y,Z是U的子集,并且Z=U-X-Y。关系模式R(U)中多值依赖X→→Y成立,当且权当对R(U)的任一关系r,给定的一对(x,z)值,有一组r的值,这组值仅仅决定于x值而与z值无关。
多值依赖的另一个等价的形式化的定义是
在R(U)的任一关系r中,如果元组t,s使得t[X]s[X],那么就必然存在元组w,v∈r(w,v可以与s,t相同),使得w[X]=v[X]=t[X],而w[Y]=t[Y],w[Z]=s[Z],v[Y]=s[Y],v[Z]=t[Z](即交换s,t元组的y值所得的两个新元组必在r中),则Y多值依赖于X,记为X→→Y,这里,X,Y是U的子集,Z=U-X-Y。
性质
(1) 对称性
(2) 传递性
(3) 函数依赖可以看作是多值依赖的特殊情况
(4) 若X→→Y,X→→X,则X→→YZ。
(5) 若X→→Y,X→→X,则X→→Y∩Z。
(6) 若X→→Y,X→→X,则X→→Y-Z,X→→Z-Y。
多值依赖和函数依赖的区别
- 多值依赖的有效性与属性集的范围有关。若X→→Y在U上成立,则在W(XY∈W∈U)上一定成立;反之则不然,即X→→Y在W(W∈U)上成立,在U上并不一定成立。
- 若函数依赖X→Y在R(U)上成立,则对于任何Y'∈Y均有X→Y',成立。而多值依赖X→→Y若在R(U)上成立,却不能断言对于任何Y'∈Y有X→→Y成立。
-
4NF
定义
关系模式R<U,F>∈1NF,如果对于R的每个非平凡的多值依赖X→→y(Y∉X)都含有码。则称R<U,F>∈4NF。
简单点说就是:在BCNF的基础上,消除非平凡且非函数依赖的多值依赖
4NF与BCNF
4NF就是限制关系模式的属性之间不允许有非平凡且非函数依赖的多值依赖。如果一个关系模式是4NF,则必为BCNF。一个关系模式如果已到达BCNF但不是4NF,这样的关系模式仍然具有不好的性质。可以用投影分解的方法去消除非平凡且函数依赖的多值依赖。
函数依赖和多值依赖
函数依赖和多值依赖是两种最重要的数据依赖。如果只考虑函数依赖,则属于BCNF的关系模式规范化进程度已经是最高的了。如果考虑多值依赖,则属于4NF的关系模式规范化程度是最高的。
3. 数据依赖的公理系统
4. 模式的分解
关系模式R<U,F>的一个分解是指:p = {R1<U1,F1>R2<U2,F2>,......Rk<Uk,Fk>}。
-
模式分解的3个定义
对于一个模式的分解是多种多样的,但是分解后产生的模式应与原模式等价。
对“等价”的概念有三种不同的定义:
(1) 分解具有“无损连接性”
(2) 分解要“保持函数依赖”
(3) 分解既要“保持函数依赖”,又要具有“无损连接性”。
按照不同的分解准则,模式所能达到分离程度各不相同,各种范式就是对分离程度的测度。
-
分解的无损连接和保持函数依赖性
-
模式分解的算法
关于模式分解的几个重要事实是:
- 若要求分解保持函数依赖,那么模式分离总可以达到3NF,但不一定能达到BCNF。
- 若要求分解既保持函数依赖,又具有无损连接性,可以达到3NF,但不一定能达到BCNF。
- 若分解要求具有无损连接性,那么一定可达到4NF。