数据库范式,一篇就够

1、范式简介
在关系型数据库中,关于数据表设计的基本原则、规则就称为范式。可以理解为,一张数据表的设计结构需要满足的某种设计标准的级别。要想设计一个结构合理的关系型数据库,必须满足一定的范式。

范式的英文名称是Normal Form,简称NF。它是英国人E.F.Codd在上个世纪7o年代提出关系数据库模型后总结出来的。范式是关系数据库理论的基础,也是我们在设计数据库结构过程中所要遵循的规则和指导方法。

2、范式都包括哪些
目前关系型数据库有六种常见范式,按照范式级别,从低到高分别是:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。

数据库的范式设计越高阶,冗余度就越低,同时高阶的范式一定符合低阶范式的要求,满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多规范要求的称为第二范式(2NF),其余范式以次类推。

一般来说,在关系型数据库设计中,最高也就遵循到 BCNF,普遍还是3NF。但也不绝对,有时候为了提高某些查询性能,我们还需要破坏范式规则,也就是反规范化。

3、键和相关属性的概念
范式的定义会使用到主键和候选键,数据库中的键(key)由一个或者多个属性组成。数据表中常用的几种键和属性的定义:

  • 超键:能唯一标识元组的属性集叫做超键。
  • 候选键:如果超键不包括多余的属性,那么这个超键就是候选键。
  • 主键:用户可以从候选键中选择一个作为主键。
  • 外键:如果数据表R1中的某属性集不是R1的主键,而是另一个数据表R2的主键,那么这个属性集就是数据表R1的外键。
  • 主属性:包含在任一候选键中的属性称为主属性。
  • 非主属性:与主属性相对,指的是不包含在任何一个候选键中的属性。

通常,我们也将候选键称之为“码”,把主键也称为“主码”。因为键可能是由多个属性组成的,针对单个属性,我们还可以用主属性和非主属性来进行区分。

4、第一范式(1NF)
第一范式主要是确保数据表中每个字段的值必须具有原子性,也就是说数据表中每个字段的值为不可再次拆分的最小数据单元。

我们在设计某个字段的时候,对于字段X来说,不能把字段X拆分成字段X-1和字段X-2。事实上都会满足第一范式的要求,不会将字段进行拆分。

举例1:

举例1:

5、第二范式(2NF)

第二范式要求,在满足第一范式的基础上,还要满足数据表里的每一条数据记录,都是可唯一标识的。而且所有非主键字段,都必须完全依赖主键,不能只依赖主键的一部分。如果知道主键的所有属性的值,就可以检索到任何元组(行)的任何属性的任何值。(要求中的主键,其实可以拓展替换为候选键)。

举例1:

成绩表((学号,课程号,成绩)关系中,(学号,课程号)可以决定成绩,但是学号不能决定成绩,课程号也不能决定成绩,所以“(学号,课程号)→成绩”就是完全依赖关系。

举例2:

比赛表player_game,里面包含球员编号、姓名、年龄、比赛编号、比赛时间和比赛场地等属性,这里候选键和主键都为(球员编号,比赛编号),我们可以通过候选键(或主键)来决定如下的关系:

但是这个数据表不满足第二范式,因为数据表中的字段之间还存在着如下的对应关系:

对于非主属性来说,并非完全依赖候选键。这样会产生怎样的问题呢?

  • 数据冗余∶如果一个球员可以参加m场比赛,那么球员的姓名和年龄就重复了m-1次。一个比赛也可能会有n个球员参加,比赛的时间和地点就重复了n-1次。
  • 插入异常∶如果我们想要添加一场新的比赛,但是这时还没有确定参加的球员都有谁,那么就没法插入。
  • 删除异常∶如果我要删除某个球员编号,如果没有单独保存比赛表的话,就会同时把比赛信息删除掉。
  • 更新异常∶如果我们调整了某个比赛的时间,那么数据表中所有这个比赛的时间都需要进行调整,否则就会出现一场比赛时间不同的情况。

为了避免出现上述的情况,我们可以把球员比赛表设计为下面的三张表。

小结:第二范式(2NF)要求实体的属性完全依赖主关键字。如果存在不完全依赖,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与元实体之间是一对多的关系。

6.第三范式(3NF)

第三范式是在第二范式的基础上,确保数据表中的每一个非主键字段都和主键字段直接相关,也就是说,要求数据表中的所有非主键字段不能依赖于其他非主键字段。(即,不能存在非主属性A依赖于非主属性B,非主属性B依赖于主键c的情况,即存在"A→B→C""的决定关系)通俗地讲,该规则的意思是所有非主键属性之间不能有依赖关系,必须相互独立。

举例1:
部门信息表:每个部门有部门编号(dept_id)、部门名称、部门简介等信息。

员工信息表∶每个员工有员工编号、姓名、部门编号。列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。

如果不存在部门信息表,则根据第三范式(3NF)也应该构建它,否则就会有大量的数据冗余。

商品类别名称依赖于商品类别编号,不符合第三范式。

举例3:

球员player表:球员编号、姓名、球队名称和球队主教练。现在,我们把属性之间的依赖关系画出来,如下图所示:

你能看到球员编号决定了球队名称,同时球队名称决定了球队主教练,非主属性球队主教练就会传递依赖于球员编号,因此不符合3NF的要求。

如果要达到3NF的要求,需要把数据表拆成下面这样:

总结:符合3NF后的数据模型通俗地讲,2NF和3NF通常以这句话概括:“每个非键属性依赖于键,并且除了键别无他物”。

7、小结:

关于数据表的设计,有三个范式要遵循。

(1)第一范式(1NF),确保每列保持原子性数据库的每一列都是不可分割的原子数据项,不可再分的最小数据单元,而不能是集合、数组、记录等非原子数据项。

(2)第二范式(2NF),确保每列都和主键完全依赖尤其在复合主键的情况下,尤其在复合主键的情况下,非主键部分不应该依赖于部分主键。

(3)第三范式(3NF)确保每列都和主键列直接相关,而不是间接相关

范式的优点:数据的标准化有助于消除数据库中的数据冗余,第三范式(3NF)通常被认为在性能据完整性方面达到了最好的平衡。

范式的缺点:范式的使用,可能降低查询的效率。因为范式等级越高,设计出来的数据表就越多、越精细,数据的冗余度就越低,进行数据查询的时候就可能需要关联多张表,这不但代价昂贵,也可能使一些索引策略无效。

范式只是提出了设计的标准,实际上设计数据表时,未必一定要符合这些标准。开发中,我们会出现为了性能和读取效率违反范式化的原则,通过增加少量的冗余或重复的数据来提高数据库的读性能,减少关联查询,join 表的次数,实现空间换取时间的目的。因此在实际的设计过程中要理论结合实际,灵活运用。

范式本身没有优劣之分,只有适用场景不同。没有完美的设计,只有合适的设计,我们在数据表的设计中,还需要根据需求将范式和反范式混合使用。

举例1:

员工的信息存储在employees表中,部门信息存储在departments表中。通过employees表中的department_id字段与departments表建立关联关系。如果要查询一个员工所在部门的名称:

如果经常需要进行这个操作,连接查询就会浪费很多时间。可以在employees.表中增加一个冗余字段department_name,这样就不用每次都进行连接操作了。

举例2:

9、反范式化的新问题

反范式可以通过空间换时间,提升查询效率,但是反范式也会带来一些新问题:

  • 存储空间变大了
  • 一个表中字段做了修改,另一个表中冗余的字段也需要做同步修改,否则数据不一致
  • 若采用存储过程来支持数据的更新、删除等额外操作,如果更新频繁,会非常消耗系统资源。
  • 在数据量小的情况下,反范式不能体现性能的优势,可能还会让数据库的设计更加复杂。

10、BCNF(巴斯范式)

人们在3NF的基础上进行了改进,提出了巴斯范式(BCNF),也叫做巴斯-科德范式(Boyce-Codd NormalForm)。BCNF被认为没有新的设计规范加入,只是对第三范式中设计规范要求更强,使得数据库冗余度更小。所以,称为是修正的第三范式,或扩充的第三范式,BCNF不被称为第四范式。

若一个关系达到了第三范式,并且它只有一个候选键,或者它的每个候选键都是单属性,则该关系自然达到BC范式。

一般来说,一个数据库设计符合3NF或BCNF就可以了。

11、第四范式

12、第五范式、域键范式:

学习数据库管理系统是一项复杂而庞大的任务,通过一篇CSDN文章无法全面覆盖所有相关知识。然而,可以通过一篇文章提供一些基本概念和入门指导。 首先,数据库管理系统(DBMS)是一种软件工具,用于管理和组织数据库。它可以提供数据存储、检索、更新和管理的功能。了解DBMS的不同类型和常见的DBMS软件是学习数据库管理系统的第一步。 其次,学习数据库设计是非常重要的。在设计数据库时,需要考虑表格、字段、关系、键等概念。了解关系数据库的范式(如第一范式、第二范式、第三范式等)以及关系代数和SQL查询语言也是必要的。 此外,了解事务处理和并发控制是数据库管理系统学习的重点。事务是指一系列数据库操作的逻辑单元,具有原子性、一致性、隔离性和持久性特性。掌握事务处理的概念和技术,以及处理并发访问数据库时可能发生的问题和解决方案,对于成为数据库管理系统专家至关重要。 最后,学习数据库性能优化和安全管理也是数据库管理系统学习的重要内容。了解如何优化数据库查询、索引设计、缓存策略和数据库分区等,可以提高数据库的性能和响应时间。同时,了解如何保护数据库的安全性、备份和恢复数据也是数据库管理系统学习的重要一环。 综上所述,学习数据库管理系统需要掌握数据库类型和软件、数据库设计、事务处理和并发控制、性能优化以及安全管理等知识。通过阅读CSDN等相关文章可以初步了解这些概念和技术,但需要进一步深入学习和实践才能真正掌握数据库管理系统。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值