一、关系数据理论
1、关系数据库逻辑设计
例子:学校开发一个学校教务的数据库,涉及的对象有:
学生的学号(Sno)、所在系(Sdept)、系主任姓名(Mname)、
课程号(Cno)和成绩(Grade)。
语义:
⒈ 一个系有若干学生, 但一个学生只属于一个系;
⒉ 一个系只有一名主任;
⒊ 一个学生可以选修多门课程, 每门课程有若干学生选修;
⒋ 每个学生所学的每门课程都有一个成绩。
存储并管理这些信息
设计了一个关系模式 STUDENT(Sno ,Sdept, Mname,Cno,Grade)
这样的模式设计会存在一些问题:
1、数据冗余度太大,浪费存储空间。
2、更新异常,如果更换系主任,必须修改每一个元组。
3、插入异常,该插入的数据插不进去。比如新成立软件工程系,但是还没有招生,因为sno不能为空,所以无法插入。
4、删除异常,若计算机的学生都毕业了,在删除学生信息的时候,把系主任的信息也都丢失了。
所以该关系模式不是一个好的关系模式。
好的模式不会发生插入异常、删除异常、更新异常、数据冗余应尽可能少。
上述错误的解决办法:
把这个单一模式分成3个关系模式:
S(Sno,Sdept,Sno → Sdept);
SC(Sno,Cno,Grade,(Sno,Cno) → Grade);
DEPT(Sdept,Mname,Sdept→ Mname)
这3个模式不会发生插入异常、删除异常毛病;数据冗余得到控制。用规范化理论改造关系模式,消除其中不合适的数据依赖。
2、数据依赖
(1)例子
在关系STUDENT(Sno ,Sdept, Mname,Cno,Grade)中,存在依赖
F ={ Sno→Sdept, Sdept→Mname, (Sno, Cno)→Grade}
即sno确定,sdept也随之确定,称为数据依赖。
可以用下面的图来表示函数依赖:
不合适的数据依赖会造成各种异常。
(2)关系模式的简化表示
- 关系模式的形式化定义
R(U, D, DOM, F)
R:关系名,是符号化的元组语义
U:该关系的属性集合
D:属性组U中属性所来自的域
DOM:属性向域的映象集合
F:属性间数据的依赖关系集合
- 简化表示
R<U, F>
将关系模式简化为一个三元组,影响数据库模式设计的主要是 U 和 F.
当且仅当U上的一个关系 r 满足F时, r 称为关系模式 R(U, F)
例如在上述例子中:
关系模式 STUDENT<U,F>
U = { Sno,Sdept,Mname,Cno,Grade }
F ={ Sno→Sdept, Sdept→Mname, (Sno, Cno)→Grade}
关系模式 STUDENT<U,F>存在诸多问题
如何解决关系模式中存在的问题?
规范化理论—找出关系模式中不合适的数据依赖,消除它们,可以在不同程度上解决插入异常、删除异常、更新异常和数据冗余问题。
二、规范化
1、函数依赖
设R(U)是一个属性集U上的关系模式,X和Y是U的子集。若对于R(U)的任意一个可能的关系r,r中不可能存在两个元组在X上的属性值相等, 而在Y上的属性值不等则称“X 函数确定Y”或“Y 函数依赖于X”,记作X→Y。
X称为这个函数依赖的决定属性组,也称为 决定因素(Determinant)。
例: S(Sno, Sname, Ssex, Sage, Sdept)
F= {Sno→Sname,Sno→Ssex,Sno→Sage,Sno→Sdept}
函数依赖在任何条件下都要满足。