六大范式
(1)第一范式(1NF):确保每列的原子性
只要是确保数据表中每个字段的值必须具有原子性,也就是说数据表中的每个字段的值为不可再拆分的最小数据单元
例如家庭住址:省市区,看具体需求是否需要拆分,不需要拆分就具有原子性
(2)第二范式(2NF):确保每列和主键的完整依赖
在满足第一范式的基础上,还要满足数据表里的每一条数据记录,都是可唯一标识的。而且所有非主键字段,都必须完全依赖主键,不能只依赖主键的一部分。
例如:成绩表:学号、课程号、成绩;其中学号和课程号都是主键,不能说这门课的成绩是多少,要说这门课对应的某个学生的成绩是对少
(3)第三范式(3NF):确保每列和主键列直接相关,而不是间接相关
要求数据表中的说是有非主键字段不能依赖于其他得主键字段
例如非主属性A依赖于非主属性B,非主属性B依赖于主属性C的情况是不可以的(A-B->C),只能A依赖C,B依赖C
范式的优点:
数据标准化有助于消除数据库中的数据冗余,第三范式通常被认为在性能、扩展性和数据完整性方面达到了最好的平衡。
范式的缺点:
范式的使用可能降低查询效率,因为等级越高,设计的数据表就越多、越精细、数据的冗余度就越低,进行数据查询的时候就可能需要关联多张表,这不但代价昂贵,也可能使一些索引策略无效
范式只是提出了设计的标准,实际上设计数据表时,未必一定要符合这些标准。开发中,我们会出现为了性能和读取效率违反范式化的原则,通过增加少量的冗余或重复的数据来提高数据库的读性能,减少关联查询,join表的次数,实现空间换取时间的目的。因此在实际的设计过程中要理论结合实际,灵活运用。
(4)巴斯-科德范式(BCNF优化后的第三范式):修正的第三范式或者扩充的第三范式,,它在3NF的基础上消除了主属性对候选键的部分依赖或者传递依赖
(5)第四范式(4NF)
1.多值依赖的概念:多值依赖即属性之间的一对多关系,记为K→→A。
2.函数依赖:事实上是单值依赖,所以不能表达属性值之间的一对多关系。
3.平凡的多值依赖∶全集U=K+A,一个K可以对应于多个A,即K→→A。此时整个表就是一组一对多关系。
4.非平凡的多值依赖︰全集U=K+A+B,一个K可以对应于多个A,也可以对应于多个B,A与B互相独立,即K→一A,K→一B。整个表有多组一对多关系,且有:“一"部分是相同的属性集合,“多""部分是互相独立的属性集合。
第四范式即在满足巴斯-科德范式(BCNF)的基础上,消除非平凡且非函数依赖的多值依赖(即把同一表内的多对多关系删除)。
(6)第五范式(5NF 又称完美范式)
越往下,冗余度越低
反范式化
1.应用场景:当冗余的信息有价值或者能大幅度提高查询效率的时候,我们才会采取反范式的优化。
2.优点:增加数据表中的冗余字段来提高数据库的读性能
3.缺点:
(1)存储空间变大了
(2)一个表中字段做了修改,另一个表中冗余字段也需要做同步修改,否则数据不一致
(3)若采用存储过程来支持数据的更新、删除等额外操作,如果更新频繁会非常消耗系统资源
(4)在数据量小的情况下,反范式不能体现性能的优势,可能还会让数据库的设计更加复杂
规范化vs性能
1.为满足某种商业目标,数据库性能比规范化数据库更重要
2.在数据规范化的同时,要综合考虑数据库的性能
3.通过在给定的表中添加额外的字段,以大量减少需要从中搜索信息所需的时间
4.通过在给定的表中插入计算列,以方便查询