[笔记][数据库]数据库理论基础篇

Tep

已于 2022-03-29 11:43:44 修改

阅读量907

点赞数

分类专栏： Tep的学习笔记文章标签：数据库

于 2020-07-01 21:35:44 首次发布

本文链接：https://blog.csdn.net/qq_33332170/article/details/107034171

版权

Tep的学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

0. 本文档的来源及目的

0.本文档为Tep个人学习笔记，不保证正确性。
1.本文档为《数据库系统概论》(第五版) - 王珊、萨师煊著的读书笔记。
2.本文档主要介绍数据库的一些基础概念，是数据库理论内容，并不涉及具体的数据库操作。
3.建议先看《MySQL必知必会》再看数据库理论，很多东西就好理解了。

1. 数据库简介

1.1 四个基本概念

数据(data)：描述事物的符号记录。

数据库(DataBase,DB)：长期存储在计算机内、有组织的、可共享的大量数据的集合。

数据库管理系统(DataBase Management System,DBMS)：数据定义；数据组织、存储和管理；数据操纵；数据库的事务管理和运行管理；数据库的建立和维护。

数据库系统(DataBase System,DBS)：有数据库、数据库管理系统(及其应用开发工具)、应用程序和数据库管理员(DataBase Administrator,DBA)：组成的存储、管理、处理和维护数据的系统。

在这里插入图片描述

图1.1 数据库系统

在这里插入图片描述

图1.2 引入数据库后计算机系统的层次结构

1.2 数据库系统的特点

数据结构化：数据库系统实现整体数据的结构化，即数据本身结构化，数据与数据之间的关系也是结构化的(优势)。这大大方便了数据的存储、管理、处理和维护，并提供统一的对外接口，方便使用和迁移。

数据的共享性高、冗余度低且易扩充：整体结构化的数据面对的不再是单一应用或单个用户，而是面向整个系统，在系统内只有一个正本，不会产生多个副本数据不一致的情况减少数据冗余。同时由于面向整个系统，可以被多个应用共享使用，易于扩充。

数据独立性高：
物理独立性——应用程序和数据库中数据的物理存储是相互独立的。
逻辑独立性——应用程序和数据库的逻辑结构是相互独立的。

数据库管理系统统一的管理和控制：数据的安全性保护；数据的完整性检查；并发控制；数据库恢复。

1.3 数据模型

1>概念模型：实体(entity)、属性(attribute)、码(key)、实体型(entity type)、实体集(entity set)、
联系(relationship)。
2> 数据模型
(1)层次模型：有且仅有一个结点没有双亲结点，这个结点称为根节点。
根以外的其他结点有且仅有一个双亲结点。
(2)网状模型：允许一个以上的结点无双亲。
一个结点可以有多于一个的双亲。
(3).关系模型是建立在集合代数的基础上的。¹
组成元素：关系、元组、属性、码、域、分量、关系模式。
关系的每一个分量必须是一个不可分的数据项。
约束条件：实体完整性、参照完整性、用户定义的完整性。

数据模型的组成要素：数据结构、数据操作、数据完整性约束条件。

1.4 数据库系统的三级模式结构

在这里插入图片描述

图1.3 数据库系统的三级模式结构

模式：也称逻辑模式，是数据库中全体数据的逻辑结构和特征的描述，是所有用户的公共数据视图。三层模式结构的中间层，与硬件环境和应用环境皆无关。

外模式：模式与应用环境的接口，一个数据库可有多个外模式。

内模式：only one，模式与物理环境的接口。

2. 关系数据库

2.1 元组、域、笛卡尔积、关系、主码、关系模式

元组(tuple)：实际记录的一条关系的记录。

域(domain)：一组具有相同数据类型的值的集合。

笛卡尔积(cartesian product)：域上的一种集合运算。

三者交叉形成的定理：

给定一组域 $D_1,D_2,\cdots,D_n$ ，允许其中某些域是相同的， $D_1,D_2,\cdots,D_n$ 的笛卡尔积为 $D_1\times D_2\times \cdots\times D_n = \{(d_1,d_2,\cdots,d_n)|d_i\in D_i,i=1,2,\cdots,n\}$ 其中，每一个元素 $(d_1,d_2,\cdots,d_n)$ 叫做一个n元组（n-tuple)，或简称元组。元素中的每一个值 $d_1$ 叫做一个分量(component)。

一个域允许的不同取值个数称为这个域的基数(cardinal number)。

若 $D_i(i=1,2,\cdots,n)$ 为有限集，其基数 $m_i(=1,2,\cdots,n)$ ，则 $D_1\times D_2\times \cdots\times D_n$ 的基数M为
$M=\prod_{i=1}^nm_i$

关系(relation)：

$D_1\times D_2\times \cdots\times D_n$ 的子集叫做在域 $D_1,D_2,\cdots,D_n$ 上的关系，表示为 $R(D_1,D_2,\cdots,D_n)$
这里 $R$ 表示关系的名字， $n$ 是关系的目或度(degree)。

关系中的每个元素是关系中的元组，通常用 $t$ 表示。

关系是笛卡尔积的有限子集，所以关系也是一张二维表，表的每行对应一个元组，表的每一列对应一个域。由于域可以相同，为了加以区分，每列称为属性(attribute)。 $n$ 目关系必有 $n$ 个属性。

候选码(candidate key)：关系中的某一属性的值能唯一标识一个元组，而其子集不能，则称该属性组为候选码。

主码(primary key)：若一个关系有多个候选码，则选定其中一个为主码。

关系可以有三种类型：基本关系(又称基本表)、查询表和视图表。基本表是实际存在的表，它是实际存储数据的逻辑表示；查询表是查询结果对应的表；视图表是由基本表或其它视图表导出的表，是虚表，不对应实际存储的数据。

关系的每一个分量必须是一个不可分的数据项

关系的描述称为关系模式(relation schema)。它可以形式化的表示为 $R (U, D, D O M, F)$ 其中 $R$ 为关系名， $U$ 为组成该关系的属性名集合， $D$ 为 $U$ 中属性所来自的域， $D O M$ 为属性向域的映像集合， $F$ 为属性间数据的依赖关系集合。

2.2 关系操作

在这里插入图片描述

图2.1 基本的关系操作

在这里插入图片描述

图2.2 关系数据语言

2.3 关系完整性

实体完整性规则： 若属性(指一个或一组属性) $A$ 是基本关系 $R$ 的主属性，则 $A$ 不能取空值(null value)。所谓空值就是“不知道”或“不存在”或“无意义”的值。

外码定义: 设 $F$ 是基本关系 $R$ 的一个或一组属性，但不是关系 $R$ 的码， $K_s$ 是基本关系S的主码。如果 $F$ 与 $K_s$ 相对应，则称 $F$ 是 $R$ 的外码(foreign key)，并称基本关系 $R$ 为参照关系(referencing relation)，基本关系 $S$ 为被参照关系(referenced relation)或目标关系(target relation)。关系 $R$ 和 $S$ 不一定是不同的关系(即有可能是同一个关系)。

参照完整性规则： 若属性(或属性组) $F$ 是基本关系 $R$ 的外码，它与基本关系 $S$ 的主码 $K_s$ 相对应(基本关系 $R$ 和 $S$ 不一定是不同的关系)，则对于 $R$ 中每个元组在 $F$ 上的值必须：

或者取空值( $F$ 的每个属性均为空值)
或者等于 $S$ 中某个元组的主码值。

用户定义完整性： 用户声明的某属性的特性。

2.4 关系代数

2.4.1 传统的集合运算

传统集合运算是二目运算，包括并、差、交、笛卡尔积4种运算。

设关系 $R$ 和关系 $S$ 具有相同的目 $n$ (即两个关系都有 $n$ 个属性)，且相应的属性取自同一个域， $t$ 是元组变量， $t\in R$ 表示 $t$ 是 $R$ 的一个元组，则可定义如下：

并(union) $R\cup S=\{t|t\in R\lor t\in S\}$
差(except) $R-S=\{t|t\in R\land t\not\in S\}$
交(intersection) $R\cap S=\{t|t\in R\land t\in S\}$
广义笛卡尔积(extended cartesian product)： $R\times S=\{\overset{\frown}{t_rt_s}|t_r\in R\land t_s\in S\}$

2.4.2 专门的运算关系

专门的运算关系包括选择、投影、连接、除运算等。

为方便叙述，引入几个记号：

若有 $R(A_{1},A_{2},\cdots,A_{n})$ ,则 $t\in R$ 表示 $t$ 是 $R$ 的一个元组。 $t[A_i]$ 则表示元组 $t$ 中相应于属性 $A_i$ 的一个分量。
若 $A=\{A_{i1},A_{i2},\cdots,A_{ik}\}$ ，其中 $A_{i1},A_{i2},\cdots,A_{ik}$ 是 $A_{1},A_{2},\cdots,A_{n}$ 中的一部分，则 $A$ 称为属性列或属性组。 $t[A]=(t[A_{i1}],t[A_{i2}],\cdots,t[A_{ik}])$ 表示元组 $t$ 在属性列 $A$ 上诸分量的集合， $\bar{A}$ 则表示 $\{A_{1},A_{2},\cdots,A_{n}\}$ 中去掉 $\{A_{i1},A_{i2},\cdots,A_{ik}\}$ 后剩余的属性组。
$R$ 为 $n$ 目关系， $S$ 为 $m$ 目关系。 $t_r\in R,t_s\in S,\overset{\frown}{t_rt_s}$ 称为元组的连接(concatenation)或元组的串接。它是一个 $n + m$ 列的元组，前 $n$ 个分量为 $R$ 中的一个 $n$ 元组，后 $m$ 个分量为 $S$ 中的一个 $m$ 元组。
给定一个关系 $R (X, Z), X$ 和 $Z$ 为属性组。当 $t [X] = x$ 时， $x$ 在 $R$ 中的象集(images set)定义为 $Z_x=\{t[Z]|t\in R,t[X]=x\}$ 它表示 $R$ 中属性组 $X$ 上的值为 $x$ 的诸元组在 $Z$ 上分量的集合。

选择(selection)
选择又称为限制(restriction)。它是在关系 $R$ 中选择满足给定条件的诸元组，记作 $\sigma_F(R)=\{t\in R \land F(t)='true'\}$ 其中 $F$ 表示选择条件，它是一个逻辑表达式，取逻辑值“真”或“假”。

选择操作从行角度进行的运算。
投影(projection)
关系 $R$ 上的投影是从 $R$ 中选择出若干属性列组成新的关系。记作 $\prod_A(R)=\{t[A]|t\in R\}$ 其中 $A$ 为 $R$ 中的属性列。

投影操作从列角度进行的运算。
连接(join)
连接也称为 $\theta$ 连接。它是从两个关系的笛卡尔积中选择属性间满足一定条件的元组。记作 $R\underset {A\theta B}\Join S=\{\overset{\frown}{t_rt_s}|t_r\in R\land t_s\in S\land t_r[A]\theta t_s[B]\}$ 其中， $A$ 和 $B$ 分别为 $R$ 和 $S$ 上列数相等且可比的属性组， $\theta$ 是比较运算符。连接运算从 $R$ 和 $S$ 的笛卡尔积 $R\times S$ 中选取 $R$ 关系在 $A$ 属性组上的值与 $S$ 关系在 $B$ 属性组上的值满足比较关系 $\theta$ 的元组。

$\theta$ 为 $“ = ”$ 的连接运算称为等值连接。即 $R\underset {A=B}\Join S=\{\overset{\frown}{t_rt_s}|t_r\in R\land t_s\in S\land t_r[A]=t_s[B]\}$

自然连接是一种特殊的等值连接。它要求两个关系中进行比较的分量必须是同名的属性组，并且在结果中把重复的属性列去掉。即若 $R$ 和 $S$ 中具有相同的属性组 $B$ ， $U$ 为 $R$ 和 $S$ 的全体属性集合，则自然连接可记作 $R\Join S=\{\overset{\frown}{t_rt_s}[U-B]|t_r\in R\land t_s\in S\land t_r[B]=t_s[B]\}$

一般的连接操作是从行的角度进行运算，但自然连接还需要取消重复列，所以是同时从行和列的角度进行计算。

由于比较分量"x属性"在关系 $R$ 中的值可能不全部包含在关系 $S$ 中的值(也可能反过来) ，所以在自然连接后有可能会抛弃一些元组，这些元组被称为悬浮元组。如果把悬浮元组保存在结果关系中，在其他属性上填空值(NULL)，那么这种连接叫做外连接(outer join)。只保留左关系 $R$ 中的悬浮元组则称为左外连接(left outer join 或 left join)，若相反则称为右外连接(right outer join 或 right join)。
除运算(division)
设关系 $R$ 除以关系 $S$ 的结果为关系 $T$ ，则 $T$ 包含所有在 $R$ 但不在 $S$ 中的属性及其值，且 $T$ 的元组与 $S$ 的元组的所有组合都在 $R$ 中。

使用象集来定义除法：
给定关系 $R (X, Y)$ 和 $S (Y, Z)$ ，其中 $X 、 Y 、 Z$ 为属性组。 $R$ 中的 $Y$ 和 $S$ 中的 $Y$ 可以有不同的属性名，但必须出自相同的域集。
$R$ 与 $S$ 的除运算得到一个新的关系 $P (X)$ ， $P$ 是 $R$ 中满足下列条件的元组在 $X$ 属性列上的投影：元组在 $X$ 上的分量值 $x$ 的象集 $Y_x$ 包含 $S$ 在 $Y$ 上投影的集合。记作 $R\div S=\{t_r[X]|t_r\in R\land \prod_\gamma(S)\subseteq Y_x\}$ 其中 $Y_x$ 为 $x$ 在 $R$ 中的象集， $x=t_r[X]$ 。

除操作是同时从行和列角度进行的运算。

2.5 空值和视图

2.5.1 空值

空值就是“不知道”或“不存在”或“无意义”的值。

空值的约束条件： 属性定义(或者域定义)中有NOT NULL 约束条件的不能取空值，加了UNIQUE 限制的属性不能取空值，码属性不能取空值。

空值的算术运算、比较运算和逻辑运算： 空值和另一个值(包括另一个空值)的算术运算的结果为空值，空值和另一个值(包括另一个空值)的比较运算的结果为UNKNOWN。有了UNKNOWN后，传统的二值(TRUE,FALSE)逻辑就扩展成了三值逻辑。

2.5.2 视图

视图是从一个或几个基本表(或视图)导出的表。它与基本表不同，是一个虚表。数据库中只存放视图的定义，而不存放视图对应的数据，这些数据仍存放在原来的基本表中。所以一旦基本表中的数据发生变化，从视图中查询出的数据也就随之改变了。从这个意义上讲，视图就像一个窗口，透过它可以看到数据库中自己感兴趣的数据及其变化。

2.6 关系演算

分为元组关系演算和域关系演算。做操作时，两者都是对比某个或某几个属性值。
差别在于：
元组关系演算以元组为视角(以元组为基本单位)，发出查询语句后返回的是元组(包含所有属性，若只想要某几个属性需要裁剪)。
域关系演算直接以域变量(属性)为视角(以域变量为基本单位)，发出的查询语句需要指定返回哪个或哪几个属性。

PS：感觉是为了研究而研究生造出来概念，实际实现都是两者混杂的，或者说这根本不应该分成两个概念，两者是一体的。