数据库设计范式
数据库的设计范式是数据库设计所需要满足的规范,满足这些规范的数据库是简洁的、结构明晰的,同时,不会发生插入(insert)、删除(delete)和更新(update)操作异常。反之则是乱七八糟,不仅给数据库的编程人员制造麻烦,而且面目可憎,可能存储了大量不需要的冗余信息
第一范式
- 数据库表中所有字段都只具有单一属性
- 单一属性的列是由基本的数据类型所构成的
- 设计出来的表是简单的二维表
如下的数据库表是符合第一范式的:
字段1 | 字段2 | 字段3 | 字段4 |
---|
而这样的数据库是不符合第一范式的:
字段1 | 字段2 | 字段3 | 字段4 |
---|---|---|---|
字段3.1 | 字段4.1 |
第二范式
第二范式要求数据库表中的每个实例或行必须可以被唯一地区分,为实现区分通常需要为表加上一个列,以存储每个实例的惟一标识,这个惟一属性称为主键
例如员工信息表中加上了员工编号(emp_id)列,因为每个员工的员工编号是惟一的,因此每个员工可以被惟一区分
简而言之,第二范式(2NF)就是非主属性完全依赖于主关键字
- 所谓完全依赖是指不能存在仅依赖主关键字一部分的属性(设有函数依赖W→A,若存在XW,有X→A成立,那么称W→A是局部依赖,否则就称W→A是完全函数依赖)。如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系
- 要求一个表中只具有一个业务主键,也就是说符合第二范式的表中不能存在非主键列只对部分主键的依赖,简单理解就是不能有复合主键
举个栗子
假定选课关系表为SelectCourse(学号, 姓名, 年龄, 课程名称, 成绩, 学分),关键字为组合关键字(学号, 课程名称),因为存在如下决定关系:
(学号, 课程名称) → (姓名, 年龄, 成绩, 学分)
这个数据库表不满足第二范式,因为存在如下决定关系:即存在组合关键字中的字段决定非关键字的情况
- (课程名称) → (学分)
- (学号) → (姓名, 年龄)
由于不符合2NF,这个选课关系表会存在如下问题:
- 数据冗余:
- 同一门课程由n个学生选修,"学分"就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次
- 更新异常:
- 若调整了某门课程的学分,数据表中所有行的"学分"值都要更新,否则会出现同一门课程学分不同的情况
- 插入异常:
- 假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有"学号"关键字,课程名称和学分也无法记录入数据库
- 删除异常:
- 假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。很显然,这也会导致插入异常
第三范式
第三范式要求一个数据库表中不包含已在其他表中已包含的非关键字信息
例如,存在一个部门信息表,其中每个部门有部门编号(dept_id)、部门名称、部门简介等信息。那么在的员工信息表中列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。如果不存在部门信息表,则根据第三范式(3NF)也应该构建它,否则就会有大量的数据冗余
举个栗子
所谓传递函数依赖,指的是如果存在"A → B → C"的决定关系,则C传递函数依赖于A
因此,满足第三范式的数据库表应该不存在如下依赖关系:
关键字段 → 非关键字段x → 非关键字段y(可以依赖关键字段)
假定学生关系表为Student(学号, 姓名, 年龄, 所在学院, 学院地点, 学院电话),关键字为单一关键字"学号",因为存在如下决定关系:
(学号) → (姓名, 年龄, 所在学院, 学院地点, 学院电话)
这个数据库是符合2NF的,但是不符合3NF,因为存在如下决定关系:
(学号) → (所在学院) → (学院地点, 学院电话)
即存在非关键字段"学院地点"、"学院电话"对关键字段"学号"的传递函数依赖
它也会存在数据冗余、更新异常、插入异常和删除异常的情况
把学生关系表分为如下两个表:
学生:(学号, 姓名, 年龄, 所在学院)
学院:(学院, 地点, 电话)
这样的数据库表是符合第三范式的,消除了数据冗余、更新异常、插入异常和删除异常
反范式化设计
反范式化允许存在少量的数据冗余,相当于用空间换时间