第01章 数据库模型

数据库是计算机科学与技术的重要分支,数据库技术的出现促进了计算机应用的发展。

数据就是使用符号来描述一个具体事物,这些描述事物的符号可以是数字,文字,图形等等,这些符号通过数字化存入计算机中。不同的符号代表该事物的不同特征。例如一个人有姓名,性别,年龄,爱好等特征。那么,这个人就是一个具体事物,我们就可以使用一组符号(一条记录)来表示这个特定的事物(例如张三),姓名就是文字符号,性别也可以是文字符号,年龄就是数字符号了。这个就类似于编程语言中的对象(记录=对象),一个对象就代表某个特定的事物(记录),对象中的属性就是该事物的符号特征(字段=属性),也就是姓名,性别,年龄等成员变量。也就是说,数据中的记录是可以映射到编程中的对象的(ORM),他们在概念上虽然不同,但是在结构上面是相似的。ORM是我们编程中数据持久化的非常流行的一门技术,hibernate框架就是ORM技术的一种实现。

在现实中,应用程序都需要保存了大量的多种多样的数据。这些数据可以以文件的形式被应用程序直接存储保存。例如,我们将不同种类的数据存储为不同的数据文件,文件中又包含了大量的数据记录,当我们需要查询某些种类数据文件中的指定记录集的时候,我们就需要进行相当复杂的编程处理。显然,这种方式是不可取的。

数据库管理系统的产生就是大量数据处理需求的必然结果。随着计算机应用到各行各业,客户对数据管理技术的要求也越来越高。我们希望客户的数据能够集中管理,并且能够通过接口方式提供给所有的应用程序。这些是文件系统不能满足的,而数据库管理系统可以做到。数据库管理系统中的数据最终也是被存储到文件中,只不过我们不用关心数据是以什么方式存储的,只需要关心对数据的操作即可,这包括添加,删除,修改以及查询。

我们先理解几个概念:数据库,数据库管理系统,数据库系统,数据库应用系统
数据库(DB): 存储在一起的数据集合。一般一个应用程序的数据都存放到一个数据库中。
数据库管理系统(DBMS): 操纵和管理数据库(DB)的软件,例如Oracle,Mysql等等。
数据库系统(DBS): 这个概念比较模糊。一般理解就是计算机系统中引入数据库和数据库管理系统后的系统,它包括硬件,软件,数据库和用户等部分组成。
数据库应用系统(DBAS): 基于数据库系统为基础构建的应用程序。

在数据库技术中,数据模型是指现实世界数据到计算机数据的模拟和抽象,用来描述数据,组织数据和对数据进行操作。数据模型的作用就是用抽象的方法来表示数据之间的联系,它既能帮助人们认识现实的世界,也能使得数据在计算机中得以表示和存储。现实世界的事物要在计算机中得以表示和存储,就需要经过两个阶段的抽象,即从现实世界到信息世界的抽象,再从信息世界到机器世界的抽象。数据模型可以分为三种:概念数据模型,逻辑数据模型,物理数据模型。概念数据模型主要是描述现实世界的概念化结构,这个与DBMS无关。逻辑数据模型,就是用户从数据库看到的数据模型。它可以分为层次数据模型,网状数据模型,关系数据模型。物理数据模型,就是描述数据在计算机系统内部的表示方法和存取方法。

这是一个过程:概念数据模型 --> 逻辑数据模型 --> 物理数据模型

概念模型是数据库设计的过程中它是第一步。因此,概念模型必须能够真实地反映现实世界中被管理事物的特征及其复杂的联系。它应该具有丰富的语义表达能力和直接模拟现实世界的能力。目前,被广泛应用的概念模型是E-R模型,即实体-联系数据模型。

要理解实体联系模型,首先必须了解几个概念。

1.    实体

实体就是现实世界中被人们识别的事物,当然它也可以是一个抽象的概念。

例如:一个学生,我们可以理解实体就是数据库中的一条记录。

2.    实体集

具有相同特征(属性)的实体的集合成为实体集。例如:一个学校的所有学生

我们可以理解为数据库中的一张表,一张表中可以存储很多条记录。

3.    实体的属性(特征)

描述实体特征的符号,例如学号,姓名,年龄等等。一个属性有属性名和属性值组成,例如姓名就是属性名,张三就是属性值。我们可以理解为表中的字段。

4.    属性的域

属性的取值范围成为属性的域。例如年龄应该在0-150之间,性别应该是男和女。

我们可以理解表字段的取值范围,当然还包含字段的数据类型。

5.    标识属性(实体标识符)

唯一标识实体集中的一个实体的属性,称之为标识属性,这个属性在这个实体集中是唯一的。例如一个学生的学号,就是一个标识属性。我们可以理解为表的主键字段。

6.    联系,就是实体和实体之间的关系。这种关系分为如下三种。

第一种关系:一对一联系:实体集A与实体集B中的每一个实体都是一一对应的关系。也就是说,一条在实体集A中的记录在实体集B中也是唯一存在的,那个两个实体集可以合并。例如一个班级只有一个班主任,那么班级实体集和班主任实体集就是一一对应关系。
我们可以创建班级表,和班主任表,当然我们可以将两个表直接合并为一张表。有时候,我们为了数据操作方便,或者性能的一些考虑,会将一对一关系的表拆成多个表。

第二种关系:一对多联系:实体集A中的每一个实体,实体集B种有N个实体与之联系。而对于实体集B中的每一个实体,在实体集A中最多只有一个实体与之联系。
例如一个班级有若干学生,而每个学生只能属于一个班级。我们可以创建班级表和学生表,然后在学生表中创建一个班级字段,用来表示这个学生属于这个班级。这就是1对多关系。

第三种关系:多对多关系:如果实体集A中的每一个实体,实体集B中有多个实体与之联系。反过来实体集B中每一个实体,实体集A中也有多个实体与之联系,这就是多对多关关系。例如一个班级实体集和教学老师实体集,一个班级拥有多名老师,而一个老师可以教多个班级。我们可以创建班级表和老师表,然后在创建一个班级和老师的关系表,该表中拥有班级字段和老师字段来表示那个老师教那个班级,这就是多对多关系的表实现。

实体联系模型一般使用E-R图来表示。在E-R图中,常用的符号有以下几种:

矩形:表示实体,在矩形框内写上实体的名称

菱形:表示实体间联系,在菱形框内写上联系的名称

无向边:把菱形和矩形连接起来,在无向边上标注1,M,N,P等联系类型

椭圆形:表示实体或联系的属性,在椭圆内写上属性的名称

逻辑数据模型分为关系模型,层次模式和网状模型。他们分别使用二维表格,树和图表示实体与实体之间的联系,并分别对应关系数据库系统,层次数据库系统和网状数据库系统。

关系数据库系统就是采用关系模型作为数据的组织方式。关系模型用二维表来表示实体和实体间关系,它是经典数据模型中建模能力最强的一种,对于各种数据都可以描述。我们经常使用的Oracle,Mysql,SQL Server都属于关系数据库关系系统。当然也有非关系数据模型的数据库关系系统,比如MongoDB,Redis,Neo4j等等。

这里我们还是重点介绍关系型数据库。

关系模型由关系数据结构,关系完整性约束和关系操作集合三部分组成。

关系模型中的关系数据结构就是一张二维表(Excel表格)。每一张二维表都代表一个实体。

每个表都由行和列组成。表中的一行代表一条记录,每一个列代表实体的一个属性。例如,我们可以为学生这个实体创建一张学生表,每一个实体属性代表一个列字段,每一行代表一个具体的学生记录。

关系完整性约束主要分为实体完整性,参照完整性和用户定义完整性。

完整性约束的目的是保证数据实体之间的关系的真实有效性。

所谓实体完整性是指实体主属性不能取空值。实体与实体之间需要通过某个属性进行唯一性的区分,这个属性就是主属性。例如学生表中的学号不能为空,因为不可能存在空学号的学生存在。像这种能够唯一标识一条记录的字段我们一般设置为主键(primary key),主键是不能为空值的。

参照完整性指的是实体与实体之间的联系不能为空。例如班级和学生的1对多的关系中,我们需要在学生表中添加班级的主键字段。为了保证每个学生都必须存在所属的班级真实有效,这个学生表中的班级主键字段不能为空,并且该字段值在班级表中必须存在。这里,我们通常称学生表中的班级主键字段为外键(foreign key)。

用户完整性指的是用户自定义完整性,这个根据我们业务情况而定。例如,学生表中的邮箱字段,我们可以进行唯一性约束,因为每个学生的邮箱肯定是不一样的。这些约束条件不必放在应用程序中检验,而是由数据库来检验的。也就是说,当插入新的记录的时候,如果邮箱已经存在,那么这个插入操作是不被允许的。

关系数据模型是基于数学基础的,因此关系操作与数学有紧密的联系。

关系代数是处理关系数据的重要数学基础,SQL语言就是基于关系代数开发的。

关系代数运算包括集合运算,关系运算,比较运算和逻辑运算。

1.集合运算包括:并,差,交,笛卡尔积

2.关系运算包括:选择,投影,连接,除

3.比较运算包括:大于,大于等于,小于,小于等于,等于,不等于

4.逻辑运算包括:与,或,非

接下来,我们优先说明一下集合运算。

集合运算包括并,差,交,笛卡尔积四种运算。

1. 并操作就是将两个集合合并在一起,重复的数据只会生成一条。在SQL中可以使用union将两个查询结果集合并在一起,但要求两个结果集字段必须一致。

2. 差操作就是就是集合A-集合B的操作,结果数据为集合A的子集,被去掉的内容就是集合B中的。在SQL中可以使用except对两个结果集进行差操作,但MySQL不支持。

3. 交操作就是两个集合中相同的数据。在SQL中可以使用intersect来对两个结果集进行交操作,该操作同样要求两个结果集的字段必须一致。

以上三种操作都有共同的特征,就是要求结果集的字段必须一致。如果两个不同的表中存在大量的相同字段的话,这样的设计是不太合理的,因为存在冗余数据了。如果是同一张表的话,我们基本上通过Where条件对数据集合直接进行筛选,不会使用集合操作的。因此,上面的三种集合操作,在现实中使用的情况比较少,大家能够理解就行了。

4. 笛卡尔积是这样的结果,集合A中n个字段属性,集合B中的m个字段属性,结果是一个m+n个字段属性的集合,且结果集合的数量是集合A乘以集合B的总数量。

接下来,我们介绍关系运算,包含选择,投影,连接和除四种运算。

1. 选择是对关系的水平分解(行)运算,说白了就是从选择部分满足条件的记录。例如,选择性别为“男”的学生,直接一点就是通过Where条件进行记录的筛选。

2. 投影是对关系的垂直分解(列)运算,说白了就是从属性集中选择子集。例如,只查询学生表中“姓名”和“专业”字段信息,直接一点就是通过Select查询指定字段来实现。

3. 连接是对两个关系集中满足一定条件的记录进行运算。连接就是在笛卡尔积的基础上增加了连接条件,这个条件一般就是一对多或者多对多中的联系字段。例如,班级表和学生表,两个表公共属性是班级ID。首先对两个表进行广义笛卡尔积运算,然后我们从乘积结果中选择某些属性,连接的条件是公共属性班级ID相等,即部门表中的ID=学生表中的班级ID,从而获取新的结果,也就是每一个学生记录扩展了班级信息。

自然连接和等值连接都是连接的的特殊情况,主要是连接条件的设置不同而已。

在mysql操作中对应的是Join连接查询,具体还要细分内外连接,且外连接又有左右之分。

4. 除操作比较复杂,使用一个简单例子来说明:假如有一个学生表,还有一个课程表,还有一张两张多对多关系的学生课程表,那么学生课程表除课程表的结果就是选择所有课程的学生集合。该场景的操作很少使用,且SQL中对于如此复杂的操作,并没有直接的实现。

总结:集合运算可以看作是行角度进行的运算。关系运算不仅涉及行,也包括列的运算。比较运算和逻辑运算用来辅助关系运算。比较和逻辑体现到SQL操作中就是Where中的操作。

最后再将一个数据库设计规范,满足这些规范就可以保证数据库是简洁、结构清晰的,同时在对数据库操作的时候,比如插入、删除、更新等不会出现操作异常或者冗余数据。要想设计一个结构合理的关系型数据库,必须满足一定的范式,满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多要求的称为第二范式(2NF),在第二范式的基础上进一步满足更多要求的称为第三范式(3NF)。一般说来,数据库只需满足第三范式(3NF)就行了。

第一范式:表中每一个列都具有原子性,都是不可再分的。第一范式是把一列拆分为多列,保证列的原子性,不能再分。实体的属性的最小化。

第二范式:在第一范式的基础上,要求表中的每一列都完全依赖于主键。主键唯一代表了一条记录,也就是一个实体。因为主键代表实体,实体的属性自然也等同于归属这个主键。如果出现某些属性不依赖这个主键的话,说明这个属性不应该属于这个实体。第二范式是把一个表拆分为多个表,一定要区分实体属性的归属性。

第三范式:在第二范式的基础上,要求非主键列必须直接依赖于主键。即不能存在:非主键列 A 依赖于非主键列 B,非主键列 B 依赖于主键的情况。例如,一个订单记录中,用户联系信息(姓名,电话,地址等等),这些信息依赖于用户ID,而这个用户ID在订单表中才依赖于订单ID,订单ID才是这个订单表的主键。正确的做法应该是将用户信息存储到用户表中,订单表中仅仅存储用户ID即可。这样做的目的是为了减少冗余。如果不这样做的话,用户的姓名,电话,地址等信息就会既出现在订单表中,又出现在用户信息表中。大量冗余数据的不一致可能会导致数据正确性的丢失。

反范式设计:凡是都有两面性,遵循范式设计数据库的目的是为了让数据库表结构更加清晰,减少数据冗余。但是,有时候我们为了提供查询性能,就需要增加冗余。例如,上面关于订单表的设计。我们显示订单信息的时候,肯定是希望同时显示用户的姓名,电话以及地址信息。如果这些信息冗余在订单表中,我们就不需要进行二次查询用户信息表来获取这写信息了。但是,这样又带来另一个问题,就是冗余数据一致性问题。假如,用户修改了姓名,电话,或者地址等信息,那么它的订单表中冗余的这些数据如何同步修改呢。我们就需要使用程序来实现数据的同步,并且需要同步数据库中所有冗余的部分,可能涉及很多表。

在需求分析阶段,需要对用户需求中涉及到的数据进行实体规划,形成E-R模型图,这属于概念结构设计阶段。接下来就是,逻辑结构涉及阶段,就是将E-R模型转换成数据模型(关系模型)。最终需要在数据库软件(Mysql)上实现具体的数据表设计。这里涉及一个数据库字典,里面详细描述了各个表的结构设计。如果有必要的话,数据字典中还应该包括数据流,它是数据结构中数据传输的路径。数据库设计中最困难在于实体之间的关系设计,主要是1:1,1:N和N:N的关系设计。这里大家经常使用数据库辅助设计工具PowerDesinger。该工具提供了一个数据库结构的图形表示。在设计完毕后,PowerDesigner可生成一个SQL脚本以生成真正的数据库,并且同时生成配套的数据字典和设计报告。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值