规范数据库设计
为什么需要规范数据设计呢?
因为糟糕的数据库设计容易产生数据冗余,浪费空间,数据库的插入和删除都会变得非常麻烦,容易导致程序异常,且程序的性能也会受到影响!
良好的数据库设计可以节省内存空间,保证数据库的完整性,便于程序员开发系统~
而关于软件开发中,关于数据库的设计,我们一般需要以下几个步骤依次执行:
-
分析需求:分析业务和需要处理的数据库的需求
-
概要设计:设计关系图E-R图
-
收集信息
-
标识实体(把需求落到每一个字段)
-
标识实体之间的关系…
数据库三大范式
为什么数据需要规范化?因为:
- 信息重复
- 更新异常
- 插入异常
- 无法正常显示信息
- 删除异常
- 丢失有效的信息
第一范式(1NF):列不可再分
1、每一列属性都是不可再分的属性值,确保每一列的原子性!
2、两列的属性相近或相似或一样,尽量合并属性一样的列,确保不产生冗余数据!
举例说明:
在上面的表中,“家庭信息”和“学校信息”列均不满足原子性的需求,故不满足第一范式,于是我们进行以下调整:
第二范式(2NF):在1NF的基础上,非码属性必须完全依赖于候选码(在1NF基础上消除非主属性对主码的部分函数依赖)第二范式需要确保数据库表中每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)
举例说明:
在上面的表中,同一个订单可能包含不同的产品,所以该表的主键必须是“订单号”和“产品号”联合组成,但这样可以发现,产品竖向、产品折扣、产品价格都与”订单号“和“产品号”相关,而订单金额和订单时间仅与“订单号”相关,并不满足第二范式,于是需要作出以下调整:
第三范式(13NF):在2NF基础上,任何非主属性不依赖于其他非主属性(在2NF基础上消除传递依赖)第三范式需要确保数据表中的每一列数据都和主键直接相关,而不能间接相关
举例说明:
在以上的表中,所有属性完全依赖于学号,满足第二范式,但是”班主任性别“和“班主任年龄”直接依赖于“班主任姓名”。而不是主键“学号”,所以我们作出以下调整:
如果并不太明白,可以把上述例子中的”班主任姓名“更换为“班主任工号”之类的字段,更符合实际情况~
规范性和性能问题
在阿里的规范之中,可以看到这样一句话:关联查询的表不得超过三张表…在考虑三大范式的情况下,我们会发现一段数据会被拆分成好几个表,关联查询所需要的表也就多了起来,这对数据库的性能会有一定的影响!
- 考虑商业化的需求和目标,还有成本和用户体验,所以数据库的性能更重要
- 在规范性能的问题时,需要适当考虑一下规范性
- 故意给某些表增加一些冗余的字段,使多表查询中变成单表查询
- 故意增加一些计算列(从大数据量查询降为小数据量的查询,而使用索引在某些情况下比较占用内存)