关系型数据库设计三大范式

作者:郑龙飞

范式定义

百度百科:设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。

人类语言:范式可以理解为设计一张数据表的表结构,符合的标准级别、规范和要求。

而通常我们用的最多的就是第一范式(1NF)、第二范式(2NF)、第三范式(3NF),也就是本文要讲的 “三大范式”。

范式的优点

采用范式可以降低数据的冗余性。

为什么要降低数据的冗余性?

  1. 十几年前,磁盘很贵,为了减少磁盘存储。

  2. 以前没有分布式系统,都是单机,只能增加磁盘,磁盘个数也是有限的。

  3. 一次修改,需要修改多个表,很难保证数据一致性。

范式的缺点

范式的缺点是获取数据时,需要通过 Join 拼接出最后的数据。

目前范式的分类

目前业界范式有:第一范式 (1NF)、第二范式 (2NF)、第三范式 (3NF)、巴斯 - 科德范式 (BCNF)、第四范式 (4NF)、第五范式 (5NF)。

什么是函数依赖?

百度百科:函数依赖简单点说就是:某个属性集决定另一个属性集时,称另一属性集依赖于该属性集。

人类语言:以下面表格为例,通俗易懂的解释,什么是函数依赖。

学号姓名系名系主任科名分数
001张三计算机系李雷高等数学87
001张三计算机系李雷大学英语88
001张三计算机系李雷数据库设计89
002李四计算机系李雷高等数学86
002李四计算机系李雷java 程序设计90
002李四计算机系李雷大学英语98
003王五财务系韩梅梅高等数学96
003王五财务系韩梅梅财务基础95

完全函数依赖

官方定义:设 X,Y 是关系 R 的两个属性集合,X’是 X 的真子集,存在 X→Y,但对每一个 X’都有 X’!→Y,则称 Y 完全函数依赖于 X。

人类语言:比如通过,(学号,课程) 推出分数 ,但是单独用学号推断不出来分数,那么就可以说:分数 完全依赖于 (学号,课程) 。

总结:即:通过 A B 能得出 C,但 是 A B 单独得不出 C,那么说 C 完全依赖于 AB。

部分函数依赖

官方定义:假如 Y 函数依赖于 X,但同时 Y 并不完全函数依赖于 X,那么我们就称 Y 部分函数依赖于 X。

人类语言:比如通过,(学 号,课程) 推出姓名,因为其实直接可以通过,学号推出姓名,所以:姓名 部分依赖于 (学号,课程)。

总结:通过 AB 能得出 C,通过 A 也能得出 C,或者通过 B 也能得出 C,那么说 C 部分依赖于 AB。

传递函数依赖

官方定义:传递函数依赖:设 X,Y,Z 是关系 R 中互不相同的属性集合,存在 X→Y (Y !→X),Y→Z,则称 Z 传递函数依赖于 X。

人类语言:比如:学号 推出 系名 , 系名 推出 系主任, 但是,系主任推不出学号,系主任主要依赖于系名。这种情况可以说:系主任 传递依赖于 学号 。

总结:即:通 过 A 得 到 B,通 过 B 得 到 C,但 是 C 得不到 A,那 么说 C 传递依赖于 A。

三范式的区别

第一范式

第一范式 1NF 核心原则:属性不可切割。

举例说明:

学号姓名系名系主任科名分数学籍信息
001张三计算机系李雷高等数学87本科,大二
002李四计算机系李雷大学英语88研究生,研三

很明显上面表格设计是不符合第一范式的,学籍信息列中的数据不是原子数据项,是可以进行分割的,因此对表格进行修改,让表格符合第一范式的要求,修改结果如下图所示:

学号姓名系名系主任科名分数学历所在年级
001张三计算机系李雷高等数学87本科大二
002李四计算机系李雷大学英语88研究生研三

实际上 ,1NF 是所有关系型数据库的最基本要求,你在关系型数据库管理系统(RDBMS),例如 SQL Server,Oracle,MySQL 中创建数据表的时候,如果数据表的设计不符合这个最基本的要求,那么操作一定是不能成功的。也就是说,只要在 RDBMS 中已经存在
的数据表,一定是符合 1NF 的。

第二范式

第二范式 2NF 核心原则:不能存在 “部分函数依赖”。

举例说明:

学号姓名系名系主任科名分数
001张三计算机系李雷高等数学87
001张三计算机系李雷大学英语88
001张三计算机系李雷数据库设计89
002李四计算机系李雷高等数学86
002李四计算机系李雷java 程序设计90
002李四计算机系李雷大学英语98
003王五财务系韩梅梅高等数学96
003王五财务系韩梅梅财务基础95

以上表格明显存在,部分依赖。比 如,这张表的主键是 (学号,课名),分数确实完全依赖于 (学号,课名),但是姓名并不完全依赖于 (学号,课名), 让表格符合第二范式的要求,修改结果如下图所示:

学号科名分数
001高等数学87
001大学英语88
001数据库设计89
002高等数学86
002java 程序设计90
002大学英语98
003高等数学96
003财务基础95
学号姓名系名系主任
001张三计算机系李雷
002李四计算机系李雷
003王五财务系韩梅梅

以上符合第二范式,去掉部分函数依赖依赖。

第三范式

第三范式 3NF 核心原则:不能存在传递函数依赖。

举例说明:

学号姓名系名系主任
001张三计算机系李雷
002李四计算机系李雷
003王五财务系韩梅梅

在上面这张表中,存 在传递函数依赖:学号 -> 系 名 -> 系主任,但是系主任推不出学号。

上面表需要再次拆解:

学号姓名系名
001张三计算机系
002李四计算机系
003王五财务系
系名系主任
计算机系李雷
计算机系李雷
财务系韩梅梅

反三范式

没有冗余的数据库未必是最好的数据库,有时为了提高运行效率,就必须降低范式标准,适当保留冗余数据。具体做法是: 在概念数据模型设计时遵守第三范式,降低范式标准的工作放到物理数据模型设计时考虑。降低范式就是增加字段,减少了查询时的关联,提高查询效率,因为在数据库的操作中查询的比例要远远大于 DML 的比例。但是反范式化一定要适度,并且在原本已满足三范式的基础上再做调整的。

总结

引用知乎大佬对范式的理解:

数据库设计应该也是分为三个境界的:

第一个境界,刚入门数据库设计,范式的重要性还未深刻理解。这时候出现的反范式设计,一般会出问题。

第二个境界,随着遇到问题解决问题,渐渐了解到范式的真正好处,从而能快速设计出低冗余、高效率的数据库。

第三个境界,再经过 N 年的锻炼,是一定会发觉范式的局限性的。此时再去打破范式,设计更合理的反范式部分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值