一、数据库系统概述
1.数据库的4个基本概念
(1)数据
数据(Data)是数据库中存储的基本对象。
定义:描述事物的符号记录。
种类:数字、文字、图形、图像、音频、视频、学生的档案记录、订单情况等。
数据的形式不能完全表达其内容。
数据有结构的:记录是计算机存储数据的一种格式或一种方法。
(2)数据库
①什么是数据库
数据库(Database,简称DB):
是长期存储在计算机内, 有组织、可共享的大量数据的集合
②为什么要建立数据库
收集并抽取出一个应用所需要的大量数据,将其保存,以供进一步加工处理,抽取有用信息,转化为有价值的知识。
③数据库的基本特征
- 数据按一定的数据模型组织、描述和存储;
- 可为各种用户共享、冗余度较小、易扩展;
- 数据独立性高
(3)数据库管理系统
①什么是数据库管理系统(DBMS)
- 位于用户与操作系统之间的一层数据管理设计
- 是基础软件,是一个大型复杂的软件系统
②用途
科学地组织和存储数据,高效地获取和维护数据
③主要功能
a、数据定义功能
提供数据定义语言(DDL);定义数据库中的数据对象
b、数据组织、存储和管理
分类组织、存储和管理各种数据;
确定数据在存储级别上的结构和存取方式;
实现数据之间的联系;
提供多种存取方法提高存取效率
c、数据操纵功能
提供数据操纵语言;
实现对数据库的基本操作(查询、插入、删除和修改)
d、数据库的事务管理和运行管理
数据的安全性、完全性、多用户对数据的并发使用;
发生故障后的系统恢复数据库;
由数据库管理系统统一管理和控制、保证事务正确运行;
e、数据库的建立和维护功能
提供实用程序/工具,完成数据库数据批量装载,数据库转储,介质故障恢复,数据库的重组组和性能监视等。
f、其他功能
数据库管理系统与网络中其他软件系统的通信;
数据库管理系统系统之间的数据转换;
异构数据库之间的互访和互操作
(4)数据库系统
①数据库系统(Database System,简称DBS)
是指在计算机系统中引入数据库后的系统构成。
在不引起混淆的情况下常常把数据库系统简称为数据库。
②构成
数据库、数据库管理系统(及其应用开发工具)、应用程序、数据库管理员(DataBase Administrator,DBA)
2.数据管理技术的产生和发展
(1)什么是数据管理
对数据进行分类、组织、编码、存储、检索和维护;
数据处理和数据分析的中心问题;
(2)数据管理技术的发展过程
人工管理阶段(20世纪50年代中之前)
文件系统阶段(20世纪50年代末——60年代中)
数据库系统阶段(20世纪60年代末——现在)
附:3个阶段的比较
人工管理阶段 | 文件系统阶段 | 数据库系统阶段 | ||
---|---|---|---|---|
背景 | 应用背景 | 科学计算 | 科学计算、管理 | 大规模数据管理 |
背景 | 硬件背景 | 无直接存取存储设备 | 磁盘、磁鼓 | 大容量磁盘、磁盘陈列 |
背景 | 软件背景 | 无操作系统 | 有文件系统 | 有数据库管理系统 |
背景 | 处理方式 | 批处理 | 联机实时处理、批处理 | 联机实时处理、分布处理、批处理 |
特点 | 数据的管理者 | 用户(程序员) | 文件系统 | 数据库管理系统 |
特点 | 数据面向对象 | 某一应用程序 | 某一应用 | 现实世界(一个企业、跨国公司) |
特点 | 数据的共享程度 | 无共享、冗余度极大 | 共享性差、冗余度大 | 共享性高、冗余度小 |
特点 | 数据的独立性 | 不独立、完全依赖于程序 | 独立性差 | 具有高度的物理独立性和一定的逻辑独立性 |
特点 | 数据的结构性 | 无结构 | 记录内有结构、整体无结构 | 整体结构化,用数据模型描述 |
特点 | 数据控制能力 | 应用程序自己控制 | 应用程序自己控制 | 有DBMS提供数据安全性、完整性、并发控制和恢复能力 |
3.数据库系统的特点
(1)数据结构化
数据的整体结构化是数据库的主要特征之一:
- 不再仅仅针对某一个应用,而是面向整个组织或企业;
- 不仅数据内部是结构化的,而且整体是结构化的,数据之间是具有联系的;
- 数据记录可以变长;
- 数据的最小存取单位是数据项;
数据用数据模型描述,无需应用程序定义。
(2)数据的共享性高,冗余度低且易扩充
数据面向整个系统,可以被多个用户、多个应用共享使用。
数据共享的好处:
- 减少数据冗余,节约存储空间;
- 避免数据之间的不相容性与不一致性;
- 使系统易于扩充;
(3)数据独立性高
物理独立性:
指用户的应用程序与数据中的数据的物理存储是相互独立的。当数据的物理存储改变了,应用程序不用改变。
逻辑独立性:
指用户的应用程序与数据库的逻辑结构是相互独立的。数据的逻辑结构改变了,应用程序不用改变。
数据独立性由数据库管理系统的二级映像功能来保证。
(4)数据库管理系统提供的数据控制功能
-
数据的安全性(Security)保护
保护数据以防止不合法的使用造成的数据的泄密和破坏;
-
数据的完整性(Integrity)检查
保证数据的正确性、有效性和相容性;
-
并发控制(Concurrent Control)
对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果;
-
数据库恢复(Recovery)
将数据库从错误状态恢复到某一已知的正确状态;
二、数据模型
数据模型是对现实世界数据特征的抽象。
数据模型应满足三方面要求:
- 能够比较真实地模拟现实世界;
- 容易为人所理解;
- 便于在计算机上实现;
数据模型是在数据库系统的核心和基础。
1.两类数据模型
(1)概念模型,也称信息模型
它是按用户的观点来对数据和信息建模,用于数据库设计。
(2)逻辑模型和物理模型
逻辑模型主要包括网状模型、层次模型、关系模型、面向对象模型、对象关系数据模型、半结构数据模型等。
按计算机系统的观点数据建模,用于DBMS实现。
物理模型是对数据最底层的抽象。
描述数据在系统内(磁盘上)的表示方式和存取方法。
2.概念模型
概念模型的用途:
- 概念模型用户信息世界的建模;
- 是对现实世界到机器世界的一个中间层次;
- 是数据库设计的工具;
- 数据库设计人员和用户之间进行交流的语言;
- 对概念模型的基础要求:
- 较强的语义表达能力;
- 简单、清晰、易于用户理解;
(1)信息世界中的基本概念
实体(Entity)
客观存在并可相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念。
属性(Attribute)
实体所具有的某一特征称为属性。一个实体可以由若干个属性来刻画。
码(key)
唯一标识实体的属性称为码。
实体型(Entity Type)
用实体名及属性名集合和刻画同类实体称为实体型。
实体集(Entity Set)
同一类型实体的集合称为实体集。
联系(Relationship)
现实世界中事物内部以及事物之间的联系在信息世界中反映为实体(型)内部的联系和实体(型)之间的联系。
实体内部的联系:是指组成实体的各属性之间的联系。
实体之间的联系:通常是指不同实体集之间的联系。
实体之间的联系有一对一(1:1)、一对多(1:n)和多对多(n:n)等多种类型。
(2)概念模型的一种表示方法
实体——联系方法(Entity—Relationship Approach)
3.数据模型的组成要素
数据模型是严格定义的一组概念的集合,精确地描述了系统的静态特性、动态特性和完整性约束条件。
数据模型由三部分组成:
(1)数据结构——描述系统的静态特性
-
刻画数据模型性质的重要方面
数据模型的类型来命名数据模型: 层次结构——层次模型、网状结构——网状模型、关系结构——关系模型
-
描述数据库的组成对象——对象的类型、内容、性质;
-
描述对象之间的联系;
(2)数据操作——描述系统的动态特性
对数据库中各种对象的实例允许执行的操作的集合,包括操作及有关的操作规则。
类型:查询、更新(包括插入、删除、修改)
数据操作语言:
定义数据操作的确切含义、符号、优先级别
实现数据操作的语言:查询语言——Query Language、更新语言——DML
(3)数据的完整性约束条件
①一组完整性规则的集合
完整性规则:给定的数据模型中数据及其联系所具有的制约和依存规则。
用以限定符号数据集合模型的数据库状态以及状态的变化,以保证数据的正确、有效和相符。
②数据模型对完整性约束条件的定义
反应和规定必须遵守的基本的通用的完整性约束条件。
提供定义完整性条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
4.常用的数据模型
- 层次模型(Hierarchical Model)
- 网状模型(Network Model)
- 关系模型(Relational Model)
- 面向对象数据模型(Object Oriented Data Model)
- 半结构化数据模型(Object Realtional Data Model)
- 非结构化数据模型、图模型…
5.层次模型
用树形结构来表示各类实体以及实体间的联系。
表示方法:
实体型:用记录类型描述,每个节点表示一个记录类型(实体)
属性:用字段描述,每个记录类型可包含若干个字段
联系:用节点之间的连线表示记录类型(实体)之间的一对多的父子关系
定义:满足下面两个条件的基本层次联系的集合为层次模型
- 有且只有一个节点没有双亲节点,这个节点称为根节点
- 根以外的其他节点有且只有一个双亲节点
(1)层次模型的数据结构
特点:
- 节点的双亲是唯一的;
- 只能直接处理一对多的实体联系;
- 任何记录值只有按其路径查看;
- 没有一个子女记录值能够脱离双亲记录值而独立存在
(2)层次模型的数据操作与完整性约束
层次模型的数据操纵:查询、插入、删除、更新
层次模型的完整性约束条件:
无相应的双亲节点值就不能插入子女节点的值;
如果删除双亲节点值,则相应的子女节点值也被同时删除;
更新操作时,应更新所有相应记录,以保证数据的一致性;
(3)优缺点
优点:
- 层次模型的数据结构比较简单清晰;
- 查询效率高,性能优于关系模型,不低于网状模型;
- 层次数据模型提供了良好的完整性支持;
缺点:
- 节点之间的多对多联系表示不自然;
- 对插入和删除操作的限制多,应用程序的编写比较复杂;
- 查询子女节点必须通过双亲节点;
- 层次数据库的命令(语言)趋于程序化;
6.2网状模型
网状数据库系统采用结构来表示各类实体以及实体间的联系。
表示方法:(与层次数据模型相同)
定义:满足下面两个条件的基本层次联系的集合:
- 允许一个以上的节点无双亲;
- 一个节点可以有多于一个的双亲;
(1)数据结构
特点:
- 允许多个节点没有双亲节点;
- 允许一个节点有多个双亲节点;
- 允许两个节点之间有多种联系;
- 要为每个联系命名并指出与该联系有关的双亲记录和子女记录
多对多联网在网状模型中的表示:
网状模型间接表示多对多联系—>方法:将多对多联系分解成一对多联系
(2)数据操纵与完整性约束
导航式的查询语言和增删改操作语言。
完整性约束条件下不严格:
- 允许插入尚未确定双亲节点值的子女节点值;
- 允许只删除双亲节点值;
实际的网状数据库系统提供了一定的完整性约束:
- 支持码的概念:唯一标识记录的数据项的集合,取唯一的值
- 保证一个联系中双亲记录与子女记录之间是一对多联系
- 可以定义双亲节点记录和子女节点记录之间某些约束条件
例:“属性类别”的概念
要求双亲记录存在才能插入子女记录,双亲记录删除时也连同删除;
选课记录就应该满足这种约束条件:
学生选课记录值中学号必须是学生记录中存在的某一学生学号,课程号必须是课程记录中存在的某一门课程号。
(3)优缺点
优点:
- 能够更为直接地描述现实世界,如一个结点可以有多个双亲;
- 具有良好的性能,存取效率较高;
缺点
- 结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握;
- DDL,DML语言复杂,用户不容易使用;
- 记录之间联系是通过存取路径实现的,应用程序必须选择存取路径,加重了程序员的负担;
7.关系模型
(1)数据结构
在用户观点下,关系模型中数据的逻辑结构是一张二维表。
关系模型中的一些术语:
- 关系(Relation):一个关系对应通常说的一张表;
- 元组(Tuple):表中的一行即位一个元组;
- 属性(Attribute):表中的一列即为一个属性,给每一个属性起一个名称即属性名;
- 主码(Key):也称码键。表中的某个属性组,它可以唯一确定一个元组;
- 域(Domain):是一组具有相同数据类型的值的集合。属性的取值范围来自某个域;
- 分量:元组中的一个属性值;
- 关系模型:对关系的描述 关系名(属性1,属性2,···,属性n)
关系必须是规范化的,满足一定的规范条件。
最基本的规范条件:关系的每一个分量必须是一个不可分的数据项,不允许表中有表。
术语对比
关系术语 | 一般表格的术语 |
---|---|
关系名 | 表名 |
关系模式 | 表头(表格的描述) |
关系 | (一张)二维表 |
元组 | 记录或行 |
属性 | 列 |
属性名 | 列名 |
属性值 | 列值 |
分量 | 一条记录中的一个列值 |
非规范关系 | 表中有表(大表中嵌有小表) |
(2)操纵与完整性约束
数据操作是集合操作,操作对象和操作结果都是关系:
查询、插入、删除、更新
存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干”。——>提高了数据的独立性,提高了用户生产率。
关系的完整性约束条件 :
实体完整性、参照完整性、用户定义的完整性
(3)优缺点
优点:
-
建立在严格的数学概念的基础上;
-
概念单一;
实体和各类联系都用关系来表示; 对数据的检索结果也是关系;
-
关系模型的存取路径对用户透明;
具有更高的数据独立性,更好的安全保密性; 简化了程序员的工作和数据库开发建立的工作;
缺点:
- 存取路径对用户透明,查询效率往往不如格式化数据模型;
- 为提高性能,必须对用户的查询请求进行优化,增加了开发数据库管理系统的难度;
三、数据库系统的结构
从数据库应用开发人员角度看,数据库系统通常采用三级模式结构,是数据库系统内部的系统结构 。
从数据库最终用户角度看,数据库系统的结构分为:
单用户结构、主从式结构、分布式结构、客户—服务器、浏览器—应用服务器/数据库服务器多层结构等。
1.概念
“型” 和“值” 的概念:
型(Type):对某一类数据的结构和属性的说明
值(Value):是型的一个具体赋值
模式(Schema):
- 数据库逻辑结构和特征的描述;
- 是型的描述,不涉及具体值;
- 反映的是数据的结构及其联系;
- 模式是相对稳定的;
实例(Instance):
①模式的一个具体值;
②反映数据库某一时刻的状态;
③同一个模式可以有很多实例;
④实例随数据库中的数据的更新而变动;
2.三级模式结构
(1)
模式(Schema,也称逻辑模式):
- 数据库中全体数据的逻辑结构和特征的描述;
- 所有用户的公共数据视图;
一个数据库只有一个模式。
模式的地位:是数据库系统模式结构的中间层
- 与数据的物理存储细节和硬件环境无关;
- 与具体的应用程序、开发工具及高级程序设计语言无关;
模式的定义:
- DDL定义数据的逻辑结构,以某种数据模型为基础;
数据记录由哪些数据项构成,数据项的名字、类型、取值范围等。 - 定义数据之间的联系;
- 定义域数据有关的安全性、完整性要求
(2)外模式(External Schema)
外模式(也称子模式或用户模式):
- 数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述;
- 数据库用户的数据视图,是与某一应用有关的数据的逻辑表示;
外模式的地位:介于模式与应用之间
-
模式与外模式的关系:一对多;
①外模式通常是模式的子集 ②一个数据库可以有多个外模式。反映了不同的用户的应用需求、看待数据的方式、对 数据保密的要求 ③对模式中同一数据,在外模式中的结构、类型、长度、保密级别等都可以不同
-
外模式与应用的关系:一对多;
①同一外模式也可以为某一用户的多个应用系统所使用 ②但一个应用程序只能使用一个外模式
外模式的用途:
- 保证数据库安全性的一个有力措施;
- 每个用户只能看见和访问所对应的外模式中的数据;
(3)内模式(Internal Schema)
内模式(也称存储模式)
-
是数据物理结构和存储方式的描述;
-
是数据在数据库内部的表示方式;
①记录的存储方式(例如,顺序存储,按照B树结构存储,按hash方法存储等) ②索引的组织方式 ③数据是否压缩存储 ④数据是否加密 ⑤数据存储记录结构的规定
一个数据库只有一个内模式。
3.二级映像功能与数据独立性
(1)外模式/模式映像
模式:描述的是数据的全局逻辑结构。
外模式:描述的是数据的局部逻辑结构 。
同一个模式可以有任意多个外模式 。
每一个外模式,数据库系统都有一个外模式/模式映象,定义外模式与模式之间的对应关系。
映象定义通常包含在各自外模式的描述中。
保证数据的逻辑独立性:
- 当模式改变时,数据库管理员对外模式/模式映象作相应改变,使外模式保持不变;
- 应用程序是依据数据的外模式编写的,应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性;
(2)模式/内模式映像
模式/内模式映象定义了数据全局逻辑结构与存储结构之间的对应关系。
数据库中模式/内模式映象是唯一的。
该映象定义通常包含在模式描述中。
保证数据的物理独立性:
- 当数据库的存储结构改变了(例如选用了另一种存储结构),数据库管理员修改模式/内模式映象,使模式保持不变。
- 应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。
数据库模式:
- 即全局逻辑结构是数据库的中心与关键 ;
- 独立于数据库的其他层次 ;
- 设计数据库模式结构时应首先确定数据库的逻辑模式;
数据库的内模式:
- 依赖于它的全局逻辑结构;
- 独立于数据库的用户视图,即外模式;
- 独立于具体的存储设备 ;
- 将全局逻辑结构中所定义的数据结构及其联系按照一定的物理存储策略进行组织,以达到较好的时间与空间效率 ;
数据库的外模式:
- 面向具体的应用程序;
- 定义在逻辑模式之上;
- 独立于存储模式和存储设备;
- 当应用需求发生较大变化,相应外模式不能满足其视图要求时,该外模式就得做相应改动 ;
- 设计外模式时应充分考虑到应用的扩充性 ;
特定的应用程序:
- 在外模式描述的数据结构上编制的;
- 依赖于特定的外模式;
- 与数据库的模式和存储结构独立;
- 不同的应用程序有时可以共用同一个外模式;
数据库的二级映像:
- 保证了数据库外模式的稳定性;
- 从底层保证了应用程序的稳定性,除非应用需求本身发生变化,否则应用程序一般不需要修改 ;
数据与程序之间的独立性,使得数据的定义和描述可以从应用程序中分离出去 。
数据的存取由数据库管理系统管理:
- 简化了应用程序的编制;
- 大大减少了应用程序的维护和修改 ;
4.数据库系统的组成
(1)硬件平台及数据库
数据库系统对硬件资源的要求:
- 足够大的内存;
- 足够的大的磁盘或磁盘阵列等设备;
- 较高的通道能力,提高数据传送率;
(2)软件
- 数据库管理系统;
- 支持数据库管理系统运行的操作系统;
- 与数据库接口的高级语言及其编译系统;
- 以数据库管理系统为核心的应用开发工具;
- 为特定应用环境开发的数据库应用系统;
(3)人员
不同人员涉及不同的数据抽象级别,具有不同的数据视图,如下图所示:
①数据库管理员(DBA)
具体职责:
-
决定数据库中的信息内容和结构;
-
决定数据库的存储结构和存取策略;
-
定义数据的安全性要求和完整性约束条件;
-
监控数据库的使用和运行;
周期性转储数据库(数据文件、日志文件) 系统故障恢复 介质故障恢复 监视审计文件
-
数据库的改进和重组;
性能监控和调优 定期对数据库进行重组织,以提高系统的性能 需求增加和改变时,数据库须需要重构造
②系统分析员、数据库设计人员
系统分析员
- 负责应用系统的需求分析和规范说明;
- 与用户及数据库管理员结合,确定系统的硬软件配置;
- 参与数据库系统的概要设计;
数据库设计人员
- 参加用户需求调查和系统分析;
- 确定数据库中的数据;
- 设计数据库各级模式;
③应用程序员
- 设计和编写应用系统的程序模块;
- 进行调试和安装;
④用户
用户是指最终用户(End User)。最终用户通过应用系统的用户接口使用数据库。
-
偶然用户
不经常访问数据库,但每次访问数据库时往往需要不同的数据库信息; 企业或组织机构的高中级管理人员;
-
简单用户
主要工作是查询和更新数据库 ; 银行的职员、机票预定人员、旅馆总台服务员;
-
复杂用户
工程师、科学家、经济学家、科技工作者等; 直接使用数据库语言访问数据库,甚至能够基于数据库管理系统的应用 程序接口编制自己的应用程序;