数据库范式学习

数据库范式是数据库设计中必不可少的知识,没有对范式的理解,就无法设计出高效率、优雅的数据库。甚至设计出错误的数据库。而想要理解并掌握范式却并不是那么容易。教科书中一般以关系代数的方法来解释数据库范式。这样做虽然能够十分准确的表达数据库范式,但比较抽象,不太直观,不便于理解,更难以记忆。
       本文用较为直白的语言介绍范式,旨在便于理解和记忆,这样做可能会出现一些不精确的表述。但对于初学者应该是个不错的入门。我写下这些的目的主要是为了加强记忆,其实我也比较菜,我希望当我对一些概念生疏的时候,回过头来看看自己写的笔记,可以快速地进入状态。如果你发现其中用错误,请指正。
       下面开始进入正题:

一、基础概念
       要理解范式,首先必须对知道什么是关系数据库,如果你不知道,我可以简单的不能再简单的说一下:关系数据库就是用二维表来保存数据。表和表之间可以……(省略10W字)。
然后你应该理解以下概念:
·      实体:现实世界中客观存在并可以被区别的事物。比如一个学生一本书一门课等等。值得强调的是这里所说的事物不仅仅是看得见摸得着的东西,它也可以是虚拟的,不如说老师与学校的关系

·      属性:教科书上解释为:实体所具有的某一特性,由此可见,属性一开始是个逻辑概念,比如说,性别的一个属性。在关系数据库中,属性又是个物理概念,属性可以看作是表的一列

·      元组:表中的一行就是一个元组。

·      分量:元组的某个属性值。在一个关系数据库中,它是一个操作原子,即关系数据库在做任何操作的时候,属性是不可分的。否则就不是关系数据库了。

·      码:表中可以唯一确定一个元组的某个属性(或者属性组),如果这样的码有不止一个,那么大家都叫候选码,我们从候选码中挑一个出来做老大,它就叫主码。

·      全码:如果一个码包含了所有的属性,这个码就是全码。

·      主属性:一个属性只要在任何一个候选码中出现过,这个属性就是主属性。

·      非主属性:与上面相反,没有在任何候选码中出现过,这个属性就是非主属性。

·      外码:一个属性(或属性组),它不是码,但是它别的表的码,它就是外码。


二、6个范式
好了,上面已经介绍了我们掌握范式所需要的全部基础概念,下面我们就来讲范式。首先要明白,范式的包含关系。一个数据库设计如果符合第二范式,一定也符合第一范式。如果符合第三范式,一定也符合第二范式


第一范式(1NF):属性不可分。
在前面我们已经介绍了属性值的概念,我们说,它是不可分的。而第一范式要求属性也不可分。那么它和属性值不可分有什么区别呢?给一个例子:

name

tel

age

大宝

13612345678

22

小明

13988776655

0101234567

21


Ps:这个表中,属性值了。

name

tel

age

手机

座机

大宝

13612345678

0219876543

22

小明

13988776655

0101234567

21


Ps:这个表中,属性了。
这两种情况都不满足第一范式。不满足第一范式的数据库,不是关系数据库!所以,我们在任何关系数据库管理系统中,做不出这样的来。



第二范式(2NF:符合1NF,并且,非主属性完全依赖于码。
听起来好像很神秘,其实真的没什么。
个候选码中的主属性也可能是好几个。如果一个主属性,它不能单独做为一个候选码,那么它也不能确定任何一个非主属性。给一个反例:我们考虑一个小学的教务管理系统,学生上课指定一个老师,一本教材,一个教室,一个时间,大家都上课去吧,没有问题。那么数据库怎么设计?(学生上课表)

学生

课程

老师

老师职称

教材

教室

上课时间

小明

一年级语文(上)

大宝

副教授

《小学语文1

101

1430


一个学生上一门课,一定在特定某个教室。所以有(学生,课程)->教室
一个学生上一门课,一定是特定某个老师教。所以有(学生,课程)->老师
一个学生上一门课,他老师的职称可以确定。所以有(学生,课程)->老师职称
一个学生上一门课,一定是特定某个教材。所以有(学生,课程)->教材
一个学生上一门课,一定在特定时间。所以有(学生,课程)->上课时间
因此(学生,课程)是一个码。
然而,一个课程,一定指定了某个教材,一年级语文肯定用的是《小学语文1》,那么就有课程->教材。(学生,课程)是个码,课程却决定了教材,这就叫做不完全依赖,或者说部分依赖。出现这样的情况,就不满足第二范式!
有什么不好吗?你可以想想:
1、校长要新增加一门课程叫微积分,教材是《大学数学》,怎么办?学生还没选课,而学生又是主属性,主属性不能空,课程怎么记录呢,教材记到哪呢? ……郁闷了吧?(插入异常)
2、下学期没学生学一年级语文(上)了,学一年级语文(下)去了,那么表中将不存在一年级语文(上),也就没了《小学语文1》。这时候,校长问:一年级语文(上)用的什么教材啊?……郁闷了吧?(删除异常)
3、校长说:一年级语文(上)换教材,换成《大学语文》。有10000个学生选了这么课,改动好大啊!改累死了……郁闷了吧?(修改异常)
那应该怎么解决呢?投影分解,将一个表分解成两个或若干个表

学生

课程

老师

老师职称

教室

上课时间

小明

一年级语文(上)

大宝

副教授

101

1430


学生上课表新

课程

教材

一年级语文(上)

《小学语文1


课程的表  

第三范式(3NF):符合2NF,并且,消除传递依赖
上面的学生上课表新符合2NF,可以这样验证:两个主属性单独使用,不用确定其它四个非主属性的任何一个。但是它有传递依赖!
在哪呢?问题就出在老师老师职称这里。一个老师一定能确定一个老师职称。
有什么问题吗?想想:
1、老师升级了,变教授了,要改数据库,表中有N条,改了N……(修改异常)
2、没人选这个老师的课了,老师的职称也没了记录……(删除异常)
3、新来一个老师,还没分配教什么课,他的职称记到哪?……(插入异常)
那应该怎么解决呢?和上面一样,投影分解:

学生

课程

老师

教室

上课时间

小明

一年级语文(上)

大宝

101

1430

 

老师

老师职称

大宝

副教授




BC范式(BCNF):符合3NF,并且,主属性不依赖于主属性
若关系模式属于第一范式,且每个属性都不传递依赖于键码,则R属于BC范式。 

通常
BC范式的条件有多种等价的表述:每个非平凡依赖的左边必须包含键码;每个决定因素必须包含键码。 

BC范式既检查非主属性,又检查主属性。当只检查非主属性时,就成了第三范式。满足BC范式的关系都必然满足第三范式。 
还可以这么说:若一个关系达到了第三范式,并且它只有一个候选码,或者它的每个候选码都是单属性,则该关系自然达到BC范式。


一般,一个数据库设计符合3NFBCNF就可以了。在BC范式以上还有第四范式、第五范式。



第四范式(4NF

1 定义

第四范式需要满足以下要求:

1       必须满足第三范式

2       表中不能包含一个实体的两个或多个互相独立的多值因子。

2 说明

     显然,第四范式也是一个比第三范式严格的范式。

     第四范式的意思是:当一个表中的非主属性互相独立时(3NF),这些非主属性不应该有多值。若有多值就违反了第四范式。定义比较抽象,可以参照下面的例子理解。

3 举例

有这样一个用户联系方式表TELEPHONE(CUSTOMERID,PHONE,CELL) CUSTOMERID为用户ID,PHONE为用户的固定电话,CELL为用户的移动电话。

      本来,这是一个非常简单的第3范式表。主键为CUSTOMERID,不存在传递依赖。但在某些情况下,这样的表还是不合理的。比如说,用户有两个固定电话,两个移动电话。这时,表的具体表示如下:

CUSTOMERID

PHONE

CELL

1000

8828-1234

149088888888

1000

8838-1234

149099999999

      由于PHONECELL是互相独立的,而有些用户又有两个和多个值。这时此表就违反第四范式。

      在这种情况下,此表的设计就会带来很多维护上的麻烦。例如,如果用户放弃第一行的固定电话和第二行的移动电话,那么这两行会合并吗?等等

      解决问题的方法为,设计一个新表NEW_PHONE(CUSTOMERID,NUMBER,TYPE).这样就可以对每个用户处理不同类型的多个电话号码,而不会违反第四范式。

4 应用

显然,第四范式的应用范围比较小,因为只有在某些特殊情况下,要考虑将表规范到第四范式。所以在实际应用中,一般不要求表满足第四范式。

第五范式(5NF

1 定义

第五范式有以下要求:

1       必须满足第四范式

2       表必须可以分解为较小的表,除非那些表在逻辑上拥有与原始表相同的主键。

2 说明

第五范式是在第四范式的基础上做的进一步规范化。

第四范式处理的是相互独立的多值情况,而第五范式则处理相互依赖的多值情况。

3 举例

有一个销售信息表SALESSALEPERSONVENDORPRODUCT)。SALEPERSON代表销售人员,VENDOR代表供和商,PRODUCT则代表产品。

在某些情况下,这个表中会产生一些冗余。可以将表分解为PERSON_VENDOR表(SALEPERSONVENDOR);PERSON_PRODUCT表(SALEPERSONPRODUCT);VENDOR­_PRODICT表(VENDORPRODUCT)。

4 应用

第五范式的应用就更少了,很多时候,我认为分解为第五范式是完全没必要的。可能在某些情况下会有意义吧。不懂。。。

总结:

   总之,规范化的过程就是在数据库表设计时移除数据冗余的过程。随着规范化的进行,数据冗余越来越少,但数据库的效率也越来越低。

   这就要求你在数据库设计中,能结合实际应用的性能要求,规范到合适的范式。一般情况下,如何性能允许的话,都要求规范到第三范式的。

 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值