数据库引论:5、关系数据库设计理论

5.1 好的关系设计的特点

​ 没有冗余,例如 i n _ d e p in\_dep in_dep模式:
i n _ d e p ( I D , n a m e , s a l a r y , d e p t _ n a m e , b u i l d i n g , b u d g e t ) in\_dep(ID,name,salary,dept\_name,building,budget) in_dep(ID,name,salary,dept_name,building,budget)
​ 表示 i n s t r u c t o r instructor instructor d e p a r t m e n t department department的关系上进行自然连接的结果,但实际上存在许多冗余,对于同一个院系的老师(例如 C o m p . S c i . Comp.Sci. Comp.Sci.),每一个元组都在 b u i l d i n g building building属性上冗余了。

​ 此外,如果想要创建一个新的院系,是一件比较麻烦的事情,或许可以通过插入空值来实现,但这样可能会导致不可预料的错误。

​ 那么这个模式就不是一个好的关系

5.1.1 分解

​ 避免模式中信息重复的唯一方式是将其分解为两个模式,单并非所有的模式分解都是有益的,例如:
e m p l o y e e ( I D , n a m e , s t r e e t , c i t y , s a l a r y ) employee(ID,name,street,city,salary) employee(ID,name,street,city,salary)
​ 分解为以下两个模式:
KaTeX parse error: Expected 'EOF', got '&' at position 2: &̲employee1(ID,na…
​ 存在如下缺陷:如果存在同名的两个员工,我们将其自然连接后,无法分辨到底是谁,反而多了很多无意义的元组。实际上,分解后得到了更多的元组,但却获得了更少的信息,这是因为我们丢失了正确连接的信息。

​ 我们将这样的分解称为有损分解,而将那些没有信息丢失的称为无损分解

图1 不好的分解导致信息丢失

5.1.2 无损分解

​ 令 R R R为关系模式,并令 R 1 R_1 R1 R 2 R_2 R2构成 R R R的分解,即 R = R 1 ∪ R 2 R=R_1\cup R_2 R=R1R2,如果对于所有合法的数据库实例,关系 r r r都包含与下述SQL查询的结果相同的元组集,我们称该分解是无损的:

	select *
	from (select R1 from r)
		natural join
		(select R2 from r)

​ 或用关系代数表示为: Π R 1 ( r ) ⋈ Π R 2 ( r ) = r \Pi_{R_1}(r)\Join \Pi_{R_2}(r)=r ΠR1(r)ΠR2(r)=r

​ 类似的,如果 r r r是真子集,即$r\sub\Pi_{R_1}®\Join \Pi_{R_2} $,那么分解是有损的

5.2 使用函数依赖进行分解

​ 在真实世界中的数据上通常存在各种约束(规则)。例如,在一个大学数据库中期望满足的一些约束有:

  1. 学生和教师通过他们的ID来唯一识别
  2. 每位学生和教师只有一个名字
  3. 每位教师和学生只(主要)关联一个系
  4. 每个系只有一个预算值,并且只有一栋关联的办公楼

​ 一个关系的满足所有这种真实世界约束的实例被称为该关系的合法实例(legal instance)

5.2.2 码和函数依赖

​ 在之前,我们将超码定义为:能够一起来唯一标识出关系中一个元组的一个或多个属性的集合。在这里,重新定义如下:

​ 给定 r ( R ) r(R) r(R) R R R的一个子集 K K K r ( R ) r(R) r(R)超码的条件是:

​ 在 r ( R ) r(R) r(R)的任意合法实例中,对于 r r r的实例中的所有元组对 t 1 t_1 t1 t 2 t_2 t2总满足:若 t 1 ≠ t 2 t_1\ne t_2 t1=t2 t 1 [ K ] ≠ t 2 [ K ] t_1[K]\neq t_2[K] t1[K]=t2[K],也就是在关系 r ( R ) r(R) r(R)的任意合法实例中,不存在两个元组在属性值 K K K上具有相同的值。

​ 考虑一个关系模式 r ( R ) r(R) r(R),并且令 α ⊆ R \alpha \subseteq R αR β ⊆ R \beta \subseteq R βR

  • 给定 r ( R ) r(R) r(R)的一个实例,如果对于该实例中的所有元组对 t 1 t_1 t1 t 2 t_2 t2,使得若 t 1 [ α ] = t 2 [ α ] t_1[\alpha]=t_2[\alpha] t1[α]=t2[α],则 t 1 [ β ] = t 2 [ β ] t_1[\beta]=t_2[\beta] t1[β]=t2[β]也成立,那么我们称该实例满足函数依赖 α → β \alpha \rightarrow \beta αβ
  • 如果 r ( R ) r(R) r(R)的每个合法实例都满足函数依赖 α → β \alpha\rightarrow \beta αβ,则我们称该函数依赖在模式 r ( R ) r(R) r(R)成立(hold)

​ 利用函数依赖的表达方式,我们可以对超码和候选码进行重新定义

K K K是关系表 R R R的一个超码,如果 K → R K\rightarrow R KR

K K K是关系表 R R R的一个候选码,如果 K → R   a n d   n o   a ⊂ K , a → R K\rightarrow R \ and\ no \ a\subset K,a\rightarrow R KR and no aK,aR

​ 考虑之前提过的模式:
i n _ d e p ( I D , n a m e , s a l a r y , d e p t _ n a m e , b u i l d i n g , b u d g e t ) in\_dep(ID,name,salary,dept\_name,building,budget) in_dep(ID,name,salary,dept_name,building,budget)
​ 对于一个系,他的预算是唯一的,那么函数依赖 d e p t _ n a m e → b u d g e t dept\_name\rightarrow budget dept_namebudget成立,此外,属性对 ( I D , d e p t _ n a m e ) (ID,dept\_name) (ID,dept_name)构成 i n _ d e p in\_dep in_dep的一个超码,可写作:
I D , d e p t _ n a m e → n a m e , s a l a r y , b u i l d i n g , b u d g e t ID,dept\_name \rightarrow name,salary,building,budget IDdept_namename,salary,building,budget
​ 我们可以发现,函数依赖是否成立,取决于现实世界的一些约束,比如一个学生只能有一个院系,那么 s t u d e n t _ I D → d e p t _ n a m e student\_ID\rightarrow dept\_name student_IDdept_name是成立的,而相反,尽管表中的每一个实例都满足某一个依赖,也不能断定函数依赖成立。

​ 有些函数依赖被称为是平凡的(trival),因为它们被所有关系满足,例如 A → A , A B → A A\rightarrow A,AB\rightarrow A AA,ABA,一般地,如果 β ⊆ α \beta \subseteq \alpha βα,则形如 α → β \alpha\rightarrow \beta αβ地函数依赖是平凡的。

​ 一个关系的实例可能满足的某些函数依赖并不需要在关系的模式上成立。

闭包:包含集合 F F F中的所有函数依赖。使用符号 F + F^+ F+来表示,即为能够从给定的集合 F F F推导出的所有函数依赖的集合。

Armstrong’s Axiom

  1. 自反律:如果 β ⊆ α \beta \subseteq \alpha βα,则 α → β \alpha \rightarrow \beta αβ
  2. 增广律:如果 α → β \alpha\rightarrow \beta αβ,则 γ α → γ β \gamma\alpha\rightarrow \gamma\beta γαγβ
  3. 传递律:如果 α → β , β → γ \alpha\rightarrow\beta,\beta\rightarrow\gamma αβ,βγ,则 α → γ \alpha\rightarrow\gamma αγ

这个公理是正确且完备的

通过公理可推导出:

  1. 合并规则:如果 α → β , α → γ \alpha\rightarrow\beta,\alpha\rightarrow\gamma αβ,αγ,则 α → β γ \alpha\rightarrow\beta\gamma αβγ
  2. 分解规则:如果 α → β γ \alpha\rightarrow\beta\gamma αβγ,则 α → β , α → γ \alpha\rightarrow\beta,\alpha\rightarrow\gamma αβ,αγ
  3. 伪传递规则:如果 α → β , γ β → δ \alpha\rightarrow\beta,\gamma\beta\rightarrow\delta αβ,γβδ,则 α γ → δ \alpha\gamma\rightarrow\delta αγδ

例子:
R = ( A , B , C , G , H , I )   F = { A → B , A → C , C G → H , C G → I , B → H } R=(A,B,C,G,H,I)\ F=\{A\rightarrow B,A\rightarrow C,CG\rightarrow H,CG\rightarrow I,B\rightarrow H\} R=(A,B,C,G,H,I) F={AB,AC,CGH,CGI,BH}

A → H , A G → I , C G → H I , ⋯ ∈ F + A\rightarrow H,AG\rightarrow I,CG\rightarrow HI,\cdots \in F^+ AH,AGI,CGHI,F+

属性集闭包(Closure of attributes sets)

​ 给定一组属性 α \alpha α,定义属性 α \alpha α F F F下的闭包为: α → β ∈ F + ⟺ β ⊆ α + \alpha\rightarrow\beta \in F^+ \Longleftrightarrow \beta \subseteq \alpha^+ αβF+βα+

​ 计算 α + \alpha^+ α+的算法:
KaTeX parse error: Expected 'EOF', got '&' at position 2: &̲result:=\alpha;…
例子:

R = ( A , B , C , G , H , I ) , F = { A → B , A → C , C G → H , C G → I , B → H } R=(A,B,C,G,H,I),F=\{A\rightarrow B,A\rightarrow C,CG\rightarrow H,CG\rightarrow I,B\rightarrow H\} R=(A,B,C,G,H,I),F={AB,AC,CGH,CGI,BH}

计算 ( A G ) + (AG)^+ (AG)+

​ result = AG

​ result = ABCG( A → C , A → B A\rightarrow C ,A\rightarrow B AC,AB)

​ resullt = ABCGH ( C G → H CG\rightarrow H CGH)

​ result = ABCGHI=R ( C G → I CG\rightarrow I CGI)

A G AG AG是超键吗?

​ 是否有 A G → R AG\rightarrow R AGR? 显然 R ⊆ ( A G ) + R\subseteq (AG)^+ R(AG)+

A G AG AG是候选码吗?

​ 是否有 A → R A\rightarrow R AR?计算可得 ( A ) + = A B C H (A)^+=ABCH (A)+=ABCH,

​ 是否有 G → R G\rightarrow R GR?计算可得 ( G ) + = G (G)^+=G (G)+=G

最小覆盖(Canonical cover)

例如:

  • 在右边: { A → B , B → C , A → C D } \{A\rightarrow B,B\rightarrow C,A\rightarrow CD\} {AB,BC,ACD}可被简化为 { A → B , B → C , A → D } \{A\rightarrow B,B\rightarrow C,A\rightarrow D\} {AB,BC,AD} (缩小的过程)
  • 在左边: { A → B , B → C , A C → D } \{A\rightarrow B,B\rightarrow C,AC\rightarrow D\} {AB,BC,ACD}可被简化为 { A → B , B → C , A → D } \{A\rightarrow B,B\rightarrow C,A \rightarrow D\} {AB,BC,AD} (放大的过程)

最小覆盖:最简形式的 F F F

无关属性:考虑 F F F中的一个依赖 α → β \alpha\rightarrow \beta αβ

  • 属性A在左侧是无关的:如果 A ∈ α A\in \alpha Aα并且 F F F满足, ( F − { α → β } ) ∪ { ( α − A ) → β } (F-\{\alpha\rightarrow \beta\})\cup\{(\alpha-A)\rightarrow\beta\} (F{αβ}){(αA)β}
  • 属性A在右侧是无关的:如果 A ∈ β A\in\beta Aβ并且 F F F满足, ( F − { α → β } ) ∪ { ( α → ( β − A ) ) } (F-\{\alpha\rightarrow\beta\})\cup\{(\alpha\rightarrow(\beta-A))\} (F{αβ}){(α(βA))}
检测某一属性是否多余

​ 考虑 α ∈ β \alpha\in\beta αβ

  • 为了检测左侧的属性 A A A是否多余:
    • 利用 F F F中的依赖,计算 ( { α } − A ) + (\{\alpha\}-A)^+ ({α}A)+
    • 检查这个闭包,如果包含 β \beta β,那么A是多余的
  • 为了检测右侧的属性 B B B是否多余:
    • 利用 F ′ = ( F − { α → β } ∪ { α → ( β − A ) } ) F'=(F-\{\alpha\rightarrow\beta\}\cup\{\alpha\rightarrow(\beta-A)\}) F=(F{αβ}{α(βA)})中的依赖关系,计算闭包 α + \alpha ^+ α+
    • 如果闭包包含A,那么确实多余。

最小覆盖的严格定义

F F F的最小覆盖是依赖的一个集合 F c F_c Fc,满足:

  • F F F可以推导出 F c F_c Fc中的所有关系,反之亦然
  • F c F_c Fc中的所有依赖没有多余的属性
  • F c F_c Fc中的所有依赖,他们的左边都是唯一的,例如,没有这样两个依赖: α 1 → β 1 , α 2 → β 2 \alpha_1\rightarrow\beta_1,\alpha_2\rightarrow\beta_2 α1β1,α2β2,有 α 1 = α 2 \alpha_1=\alpha_2 α1=α2

计算最小覆盖的算法

伪代码:

repeat

​ 用集合的并来替换 F F F中形如 α 1 → β 1   a n d   α 2 → β 2 \alpha_1\rightarrow\beta_1\ and\ \alpha_2\rightarrow\beta_2 α1β1 and α2β2 α 1 → β 1 β 2 \alpha_1\rightarrow\beta_1\beta_2 α1β1β2

​ 找多余的属性,并删除

until F不再变化
手算方法:

  1. 将右侧属性不唯一的进行分解,即类似 A → B C A\rightarrow BC ABC写为 A → B , A → C A\rightarrow B,A\rightarrow C AB,AC
  2. 对于每一个依赖检测冗余,例如对于 A B → C AB\rightarrow C ABC,删去他,并检测C是否在AB的闭包中
  3. 对左侧属性不唯一的进行检测,例如对于 A B C → D ABC\rightarrow D ABCD,依次删去属性,例如删去 A A A,则检查 B C BC BC的闭包中是否包含 D D D
找候选码

​ 对于 R ( A 1 , A 2 , ⋯   , A n ) R(A_1,A_2,\cdots,A_n) R(A1,A2,,An)以及 F F F中的依赖关系,所有属性都可以被分类为4类:

  1. L L L:属性只出现在左侧
  2. R R R:属性只出现在右侧
  3. N N N:属性在两侧均未出现
  4. L R LR LR:属性出现在两侧

算法伪代码:

  1. 对所有属性分类: x x x代表 L L L N N N类, y y y代表 L R LR LR
  2. 计算 x + x^+ x+,如果 x x x包含 R R R中的所有属性,那么 x x x就是唯一的候选码,结束算法
  3. y y y中取属性 A A A,计算 ( x A ) + (xA)^+ (xA)+,如果 ( x A ) + (xA)^+ (xA)+包含 R R R中的所有属性,那么 x A xA xA R R R的一个候选码。继续选取,知道 y y y中属性的所有组合都被选过
  4. 结束,输出结果

无损链接分解

即无损分解,对于 R R R表中的所有属性,必须出现在分解 ( R 1 , R 2 ) (R_1,R_2) (R1,R2)中,即 R = R 1 ∪ R 2 R=R_1\cup R_2 R=R1R2,对于 R R R上所有可能的关系 r r r,有 r = Π R 1 ( r ) ⋈ Π R 2 ( r ) r=\Pi_{R_1}(r)\Join \Pi_{R_2}(r) r=ΠR1(r)ΠR2(r)

无损分解的判断

​ 对于 ( R ) = ( R 1 , R 2 ) (R)=(R_1,R_2) (R)=(R1,R2),它是一个无损分解,当且仅当

  • R 1 ∩ R 2 → R 1 R_1 \cap R_2 \rightarrow R_1 R1R2R1
  • R 1 ∩ R 2 → R 2 R_1\cap R_2 \rightarrow R_2 R1R2R2

​ 至少满足一个。

例如:给定 R < U , F > R<U,F> R<U,F>, U = { A , B , C , D , E } , F = { A B → C , C → D , D → E } U=\{A,B,C,D,E\},F=\{AB\rightarrow C,C\rightarrow D,D\rightarrow E\} U={A,B,C,D,E},F={ABC,CD,DE} R R R上的一个分解为: R 1 ( A , B , C ) , R 2 ( C , D ) , R 3 ( D , E ) R1(A,B,C),R2(C,D),R3(D,E) R1(A,B,C),R2(C,D),R3(D,E),判断是否为无损分解

P r o o f : Proof: Proof:
R 1 ∩ R 2 = C C → A B C   ? 没有这个依赖关系 C → C D  √ R 2 ∩ R 3 = D D → C D   ? 没有这个依赖关系 D → D E  √ R1\cap R2=C\\ C\rightarrow ABC \ ? 没有这个依赖关系\\ C\rightarrow CD \ √ \\ R2 \cap R3= D \\ D\rightarrow CD \ ? 没有这个依赖关系\\ D\rightarrow DE \ √ R1R2=CCABC ?没有这个依赖关系CCD R2R3=DDCD ?没有这个依赖关系DDE 
所以是无损分解。

5.3 范式

第一范式(1NF)

​ 如果一个关系模式R的所有属性域都是原子域,那么R属于第一范式,即属性不可分,不是复合属性。

第二范式(2NF)

​ 满足1NF,并且非主属性完全依赖于主关键字。完全依赖是指不能存在仅依赖于主关键字的部分属性

  • 非主属性:不在任何一个候选码中的属性
  • 主属性:在任意一个候选码中的属性

5.3.1 Boyce-Codd范式

​ BCNF消除了基于函数依赖能够发现的所有冗余,虽然仍可能保留其他类型的冗余。

BCNF的条件

​ 对于 F + F^+ F+中所有形如 α → β \alpha\rightarrow \beta αβ的函数依赖(其中 α , β ⊆ R \alpha,\beta\subseteq R α,βR),下面至少有一项成立:

  • α → β \alpha\rightarrow\beta αβ是平凡的函数依赖即 β ⊆ α \beta\subseteq \alpha βα
  • α \alpha α是模式R的一个超码

​ 一个数据库的设计属于BCNF的条件是,构成该设计的关系模式集中的每个模式都属于BCNF

分解为BCNF的方法

​ 令 R R R为不属于BCNF的一个模式,那么至少有一个非平凡的函数依赖 α → β \alpha\rightarrow\beta αβ,使得 α \alpha α不是超码,那么使用以下两个模式去取代 R R R:

  • ( α ∪ β ) (\alpha\cup\beta) (αβ)
  • ( R − ( β − α ) ) (R-(\beta-\alpha)) (R(βα))

例如对于模式:
i n _ d e p ( I D , n a m e , s a l a r y , d e p t _ n a m e , b u i l d i n g , b u d g e t ) in\_dep(ID,name,salary,dept\_name,building,budget) in_dep(ID,name,salary,dept_name,building,budget)
​ 注意到有非平凡的函数依赖 d e p t _ n a m e → b u i l d i n g , b u d g e t dept\_name\rightarrow building,budget dept_namebuilding,budget,则 α = d e p t _ n a m e , β = { b u i l d i n g , b u d g e t } \alpha=dept\_name,\beta=\{building,budget\} α=dept_name,β={building,budget},则被分解为:

  • α ∪ β = ( d e p t _ n a m e , b u i l d i n g , b u d g e t ) \alpha\cup\beta =(dept\_name,building,budget) αβ=(dept_name,building,budget)
  • ( R − ( β − α ) ) = ( I D , n a m e , s a l a r y , d e p t _ n a m e ) (R-(\beta-\alpha))=(ID,name,salary,dept\_name) (R(βα))=(ID,name,salary,dept_name)

​ 当分解的结果仍然不是BCNF时,继续分解即可。

BCNF和保持依赖

​ 假设我们对 d e p t _ a d i v i s o r dept\_adivisor dept_adivisor联系集做一个改动:一位老师只能和单个系相关联,且一名学生可以有多位导师,但是在给定的系中至多只有1个导师,E-R图如图所示:

在这里插入图片描述

图1 dept_advisor联系集

则有新模式:
d e p t _ a d v i s o r ( s _ I D , i _ I D , d e p t _ n a m e ) dept\_advisor(s\_ID,i\_ID,dept\_name) dept_advisor(s_ID,i_ID,dept_name)
容易从上文中得到约束:
i _ I D → d e p t _ n a m e s _ I D , d e p t _ n a m e → i _ I D i\_ID\rightarrow dept\_name\\ s\_ID,dept\_name\rightarrow i\_ID i_IDdept_names_ID,dept_namei_ID
显然 i _ I D i\_ID i_ID不是超码,则不满足BCNF,按照分解方法,我们可得到BCNF分解为:
( s _ I D , i _ I D ) ( i _ I D , d e p t _ n a m e ) (s\_ID ,i\_ID)\\ (i\_ID,dept\_name) (s_ID,i_ID)(i_ID,dept_name)
上面的两个模式都属于BCNF,但注意到,没有一个模式包含了出现在函数依赖 s _ I D , d e p t _ n a m e → i _ I D s\_ID,dept\_name\rightarrow i\_ID s_ID,dept_namei_ID的所有属性,可以在分解后的单个关系上强制实施的唯一依赖是 s _ I D → i _ I D s\_ID\rightarrow i\_ID s_IDi_ID,而函数依赖 s _ I D , d e p t _ n a m e → i _ I D s\_ID,dept\_name\rightarrow i\_ID s_ID,dept_namei_ID只能通过计算分解后关系的连接来检查。

​ 由于我们的设计并不允许在没有连接的情况下强制实施这种函数依赖’所以我们的设计是非保持依赖(dependency preserving)的。

保持依赖:对于 R R R的一个分解 R 1 , R 2 , ⋯   , R n R_1,R_2,\cdots,R_n R1,R2,,Rn, F F F R i R_i Ri的限定是 F + F^+ F+中只包含 R i R_i Ri属性的所有函数依赖集合 F i F_i Fi

​ 限定 F 1 , F 2 , ⋯   , F n F_1,F_2,\cdots,F_n F1,F2,,Fn的集合是能被高效检查的依赖集,令 F ′ = F 1 ∪ F 2 ∪ ⋯ ∪ F n F'=F_1\cup F_2\cup\cdots\cup F_n F=F1F2Fn F ′ F' F是模式 R R R上的一个函数依赖集,通常而言 F ′ ≠ F F'\ne F F=F,但即使 F ′ ≠ F F'\ne F F=F,也有可能 F ′ + = F + F'^+=F^+ F+=F+

​ 如果 F ′ + = F + F'^+=F^+ F+=F+,则认为这个分解是保持依赖的分解

5.3.2 第三范式

​ 第三范式放松了对函数依赖左侧属性的要求。

第三范式的条件

​ 对于 F + F^+ F+中所有形如 α → β \alpha\rightarrow \beta αβ的函数依赖(其中 α , β ⊆ R \alpha,\beta\subseteq R α,βR),下面至少有一项成立:

  • α → β \alpha\rightarrow\beta αβ是平凡的函数依赖即 β ⊆ α \beta\subseteq \alpha βα
  • α \alpha α是模式R的一个超码
  • β − α \beta - \alpha βα中的每个属性 A A A都被包含于 R R R的一个候选码中

​ 注意上面的第三个条件,每个属性 A A A可能被包含于不同的候选码中。这个条件的作用不太明显,某种意义上,它代表BNFC条件的最小放松,这种放松有助于确保每一个模式都保持依赖地分解到3NF。

​ 显然,满足BCNF的模式也满足3NF,BCNF是更严格的范式。

第三范式的分解方法:
  1. 求出最小依赖集和候选码
  2. 若有属性两侧均未出现,则单独划分为一个子集
  3. 剩余的依赖按左侧相同的规则进行划分合并
  4. 若候选码没有出现在任意一个子集中,则添加一个子集,其中只含候选码属性。

例题:

在这里插入图片描述

  • 12
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值