一.闭包及候选键求解方法
1.函数依赖集的闭包
定义:在关系模式R(U,F)中,U是R的属性全集,F是R上的一组函数依赖。设X,Y是U的子集,对于关系模式R中的任意关系r,如果r满足F,则r满足X->Y,那么称F逻辑蕴涵X->Y,或称函数依赖X->Y可由F导出。
所有被F逻辑蕴涵的函数依赖的全集称为F的闭包,记作F+
对关系模式R(U,F),应用Armstrong公理系统计算F+的过程:
步骤1:初始,F+=F
步骤2:对F+中的每个函数依赖f,在f上应用自反性和增广性,将结果加入F+中;对F+中的一对函数依赖f1和f2,如果f1和f2可以使用传递律结合起来,则将结果加入F+中。
步骤3:重复步骤2,直到F+不再增大为止
(详细例题见书P218)
2.属性集闭包
定义:设有关系模式R(U,F),U是R的属性全集,F是R上的函数依赖集,X是U的一个子集。用函数依赖推理规则可从F推出的函数依赖X->A中所有A的集合,称为属性集X关于F的闭包,记为X+。
即:X+={A| X->A能够由F根据Armstrong公理导出}
对关系模式R(U,F),求属性集X相对于函数依赖集F的闭包X+的算法如下:
步骤1:初始,X+=X
步骤2:如果F中有某个函数依赖Y->Z满足Y包含于X+。则X+=X+∪Z=XZ
步骤3:重复步骤2,直到X+不再增大为止
(详细例题见书P219)
3.候选键的求解方法
对于给定的关系模式R(A1,A2,…,An)和函数依赖集F,现将R的属性分为如下四类:
(1)L类:仅出现在函数依赖左部的属性
(2)R类:仅出现在函数依赖右部的属性
(3)N类:在函数依赖的左部和右部均不出现的属性
(4)LR类:在函数依赖的左部和右部均出现的属性
对R中的属性X,可有以下结论:
(1)若X是L类属性,则X一定包含在关系模式R的任何一个候选键中;若X+包含了R的全部属性,则X为关系模式R的唯一候选键
(2)若X是R类属性,则X不包含在关系模式R的任何一个候选键中
(3)若X是N类属性,则X一定包含在关系模式R的任何一个候选键中
(4)若X是LR类属性,则X可能包含在关系模式R的某个候选键中
候选键求解步骤:
(详细例题见书P220-221)
二.极小函数依赖集
1、定义: 如果函数依赖集F满足下列条件,则称F为一个极小函数依赖集,亦称为最小依赖集或最小覆盖。
(1)、F中任一函数依赖右部仅含有一个属性。(2)、F中不存在这样的函数依赖 X→ A,使得F与F-{X→A} 等价。(3)、F中不存在这样的函数依赖X→ A,X有真子集Z使得F-{X→A}⋃{Z→A} 与F等价。
2.计算极小函数依赖集的算法:
问题:R<U,F>,U=ABCD,函数依赖集F={A→BD,AB→C,C→D},求F最小函数依赖集。
解(计算步骤):
1.将F中的所有函数依赖右边化为单一属性
F={A→B,A→D,AB→C,C→D}
2.去掉F中所有函数依赖左边的冗余属性
只有AB→C中左边可能出现冗余属性,我们先求A和B的闭包属性:
A+={A,B,C,D},B+={B}
所以B是冗余的,去掉B:
F={A→B,A→D,A→C,C→D}
3.去掉F中所有冗余的函数依赖关系
我们将A→D这个关系去掉之后发现A的闭包仍为{A,B,C,D},所以A→D是冗余的,可以去掉。
所以最小函数依赖集F={{A→B,A→C,C→D}
注意:最小函数依赖集不是唯一的,它和上面2,3步骤中处理冗余的顺序有关系
三.范式
1.第一范式(确保每列保持原子性)
第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式。第一范式的合理遵循需要根据系统的实际需求来定。比如某些数据库系统中需要用到“地址”这个属性,本来直接将“地址”属性设计成一个数据库表的字段就行。但是如果系统经常会访问“地址”属性中的“城市”部分,那么就非要将“地址”这个属性重新拆分为省份、城市、详细地址等多个部分进行存储,这样在对地址中某一部分操作的时候将非常方便。这样设计才算满足了数据库的第一范式,如下表所示。上表所示的用户信息遵循了第一范式的要求,这样在对用户使用城市进行分类的时候就非常方便,也提高了数据库的性能。
2.第二范式(确保表中的每列都和主键相关)
第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)。也就是说在一个数据库表中,一个表中只能保存一种数据,不可以把多种数据保存在同一张数据库表中。比如要设计一个订单信息表,因为订单中可能会有多种商品,所以要将订单编号和商品编号作为数据库表的联合主键,如下表所示。 订单信息表这样就产生一个问题:这个表中是以订单编号和商品编号作为联合主键。这样在该表中商品名称、单位、商品价格等信息不与该表的主键相关,而仅仅是与商品编号相关。所以在这里违反了第二范式的设计原则。而如果把这个订单信息表进行拆分,把商品信息分离到另一个表中,把订单项目表也分离到另一个表中,就非常完美了。如下所示。这样设计,在很大程度上减小了数据库的冗余。如果要获取订单的商品信息,使用商品编号到商品信息表中查询即可。
3.第三范式(确保每列都和主键列直接相关,而不是间接相关)
第三范式需要确保数据表中的每一列数据都和主键直接相关,而不能间接相关。比如在设计一个订单数据表的时候,可以将客户编号作为一个外键和订单表建立相应的关系。而不可以在订单表中添加关于客户其它信息(比如姓名、所属公司等)的字段。如下面这两个表所示的设计就是一个满足第三范式的数据库表。这样在查询订单信息的时候,就可以使用客户编号来引用客户信息表中的记录,也不必在订单信息表中多次输入客户信息的内容,减小了数据冗余。