数据仓库笔记(高质量建模)02——数据规范

数据规范前,需注意:

1、列出实体:名词(表);

2、勾勒出关系:动词;

3、尽量消除多对多关系;

4、列出所有属性(列);

5、数据规范需满足:1NF >2NF >3NF >BC NF (3.5NF) >4 NF > 5NF(一般能做到满足3NF就行);

6、建模需先规范化、再逆规范化,尽量不要想着一步到位,可能会出现很多意想不到的结果;

7、每个非属主性必须依赖于主属性,且依赖整个主属性而并非其中一部分,并且不依赖于其他非主属性。

一、1NF(第一范式)

原子性:没有重复的列,列不可再分,没有重复的行

1、数据规整成二维表格

2、确保每一列表达的同一含义的数据

3、去掉多值属性,拆成多列(如地址会拆分到街道办,之前可能就是地址一栏,现在有很多细分栏)

4、去掉重复组,挪到新的表去(如客户有多个电话号码,应单独整理成电话表,当客户新增电话时,就新增数据就行,而不是在用户列表只设置一个电话列,或是设定固定的几列,因为固定就代表不可灵活新增数据)

5、确定主键。

如成绩分数与评分等级不属于同一含义:

同一单元格存在重复组

 

同一单元格存在级联值

二、2NF(第二范式)

非主键属性依赖于整个键,而不是其中一部分

1、第二范式首先需在满足第一范式的基础上,后面以此类推

2、如果非主键属性只依赖于主键一部分,则需要移出、创建新表(减少冗余)

如:成绩依赖于学号与课程,但姓名只依赖于学号


三、3NF(第三范式)

非主键属性只依赖于主键,不能依赖其他非主键属性

1、首先得先满足第二范式

2、如果非主键属性还依赖于其他非主键属性,需移出并创建新表

四、BC 范式(第3.5范式)

BCNF与第三范式的不同之处在于:第三范式不允许非主属性被另一个非主属性决定,但允许主属性被非主属性决定(如上面的学号与班级编号或班级,班级是可以决定学号的,也就是哪个班有哪些同学);

BCNF中,任何属性(包括主属性与非主属性)都不能被非主属性所决定

1、首先依赖第三范式;

2、主键与非主键都不能依赖于非主键

每个班级的每个课程都会派一个老师,然后一个老师只教一门课

2.1、也就是课程依赖于老师,如果用班级与课程做主键,而老师是非主键,是符合第三范式的,但不符合BCNF,因为课程主属性依赖于非主属性教师;

2.2、但如果班级和教师当成主键,而课程为非主键,那么不符合第二范式(命题中只说每个班级每个课程都派一个老师,并没有说每个班级必须有哪些课,也就是课程并不依赖于班级,只依赖于教师,意思是非主属性只依赖部分主属性) 

 

五、4BF(第四范式)

消除多值依赖,什么是多值依赖呢?

1、适用于3各或以上主键,如有3各主属性,ABC在一起做联合主键;

2、AB、AC都存在关系,并且B的改动不会影响C,C的改动也不会影响B,我们称之为多值依赖。

如学号与课程是有依赖关系,但课程与语言没啥关系,但语言与学号有依赖关系(也就是某个某个学生会哪种语言,但是他会哪种语言与他上哪门课没多大关系,难道说你某用户不会法语就不让他去上计算机编程课?) 

如果非要把三个都当成主键,那么只能拆分,如果课程和语言不是主属性,那么都符合规范。

 六、5NF(第五范式)

第五范式主要消除连接依赖,什么是连接依赖?

1、三个或以上主属性,在一起做联合主键,假设分别人ABC;

2、AB、BC、AC均存在逻辑关系

这种情况,我们称为连接依赖。

如学号与课程有关系(某学生要上什么课程),然后课程与阅读书籍也有关系(某类课程需要阅读、或可以阅读什么书籍),学号与阅读书籍也有关系(某学生都看了什么书);

 虽然第五范式是这样的要求,但实际运用上不建议这么做,如上图所示,1张表就能搞定的事情,一定要被拆解成3张表,增加表的冗余问题。

传说还有第六范式,但实际运用中不必太学院派。掌握第三范式就基本够用,如果想深入研究的话,BCNF与第四范式还可以用用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值