目录
第一章 绪论
1.1数据库系统概论
1.1.1基本概念
1.数据(Data)
数据(Data):是数据库中存储的基本对象。
数据的定义:描述事物的符号记录。
数据的种类:文本、图形、图像、音频、视频、学生的档案记录、货物的运输情况等。
数据的特点:数据与其语义(数据的含义)是不可分的。
2.数据库(Database)
数据库的定义:数据库(Database,简称DB)是长期储存在计算机内、有组织的、可共享的大量数据的集合。
数据库的基本特征:
数据按一定的数据模型组织、描述和储存
可为各种用户共享
冗余度较小
独立性较高
易扩展
3.数据库管理系统(DBMS):
1.什么是DBMS
位于用户与操作系统之间的一层数据管理软件。是基础软件,是数据库系统的核心,是一个大型复杂的软件系统 。
2.DBMS的用途
科学地组织和存储数据、高效地获取和维护数据。
3.DBMS的主要功能
数据定义功能 :
提供数据定义语言(DDL)
定义数据库中的数据对象
数据组织、存储和管理:
分类组织、存储和管理各种数据
确定组织数据的文件结构和存取方式
实现数据之间的联系
提供多种存取方法提高存取效率
数据操纵功能 :
提供数据操纵语言(DML)
实现对数据库的基本操作 (查询、插入、删除和修改)
数据库的事务管理和运行管理:
数据库在建立、运行和维护时由DBMS统一管理和控制保证数据的安全性、完整性、多用户对数据的并发使用发生故障后的系统恢复。
数据库的建立和维护功能(实用程序)
数据库初始数据装载转换
数据库转储
介质故障恢复
数据库的重组织
性能监视分析等
其它功能
DBMS与网络中其它软件系统的通信
两个DBMS系统的数据转换
异构数据库之间的互访和互操作
4.数据库系统(DBS)
1.什么是数据库系统
在计算机系统中引入数据库后的系统构成
2.数据库系统的构成
数据库
数据库管理系统(及其开发工具)
应用系统
数据库管理员
1.2数据管理技术的产生和发展
数据管理:对数据进行分类、组织、编码、存储、检索和维护。
1.数据管理技术的发展过程
人工管理阶段 | 文件系统阶段 | 数据库系统阶段 | |
---|---|---|---|
应用背景 | 科学计算 | 科学计算、数据管理 | 大规模数据管理 |
硬件背景 | 无直接存取存储设备 | 磁盘、磁鼓 | 大容量磁盘、磁盘阵列 |
软件背景 | 没有操作系统 | 文件系统 | 有数据库管理系统 |
处理方式 | 批处理 | 联机实时处理、批处理 | 联机实时处理、分布处理、批处理 |
数据的管理者 | 用户(程序员) | 文件系统 | 数据库管理系统 |
数据面向的对象 | 某一应用程序 | 某一应用 | 现实世界 |
数据的共享程度 | 无共享,冗余度极大 | 共享性差、冗余度大 | 共享性高、冗余度小 |
数据的独立性 | 不独立,完全依赖于程序 | 独立性差 | 具有高度的物理独立性和一定的逻辑独立性 |
数据的结构化 | 无结构 | 记录内部有结果、整体无结构 | 整体结构化,用数据模型描述 |
数据的控制能力 | 应用程序自己控制 | 应用程序自己控制 | 由数据库管理系统提供数据安全性、完整性、并发控制和恢复能力 |
2.数据库系统的特点
数据结构化:整体数据的结构化是数据库的主要特征之一 ,也是数据库系统与文件系统的本质区别。
数据的共享性高,冗余度低,易扩充:
数据共享可以大大减少数据冗余,节约存储空间。数共享还能避免数据之间的不相容性与不一致性。
使得数据库弹性大,易于扩充。
数据独立性高:
物理独立性:指用户的应用程序与数据库中的数据物理存储是相互独立的。
逻辑独立性:指用户的应用程序与数据库的逻辑结构是相互独立的。
数据由DBMS统一管理和控制:
数据的安全性(Security)保护:保护数据,以防止不合法的使用造成的数据的泄密和破坏。
数据的完整性(Integrity)检查:将数据控制在有效的范围内,或保证数据之间满足一定的关系。
并发(Concurrency)控制:对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
数据库恢复(Recovery):将数据库从错误状态恢复到某一已知的正确状态。
1.3数据模型
-
通俗地讲数据模型就是现实世界的模拟。
-
数据模型是数据库系统的核心和基础。
1.两类数据模型
概念模型:也称信息模型,它是按用户的观点来对数据和信息建模,主要用于数据库设计,它是现实世界到机器世界的桥梁。
逻辑模型和物理模型:
逻辑模型主要包括网状模型、层次模型、关系模型、面向对象模型等,按计算机系统的观点对数据建模,主要用于DBMS实现。
物理模型是对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法。
2.数据模型的组成要素
数据结构 :描述数据库的组成对象,以及对象之间的联系,是对系统静态特性的描述。
数据操作 :对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则,是对系统动态特性的描述。
完整性约束条件:一组完整性规则的集合。
完整性规则:给定的数据模型中数据及其联系所具有的制约和储存规则用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容。
3.概念模型
1.基本概念
实体(Entity):客观存在并可相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念。
属性(Attribute):实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画。
码(Key):唯一标识实体的属性集称为码。
域(Domain):属性的取值范围称为该属性的域。
实体型(Entity Type):用实体名及其属性名集合来抽象和刻画同类实体称为实体型。
实体集(Entity Set):同一类型实体的集合称为实体集。
联系(Relationship):现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联系(实体之间的联系有一对一、一对多、多对多等多种类型)。
实体内部的联系通常是指组成实体的各属性之间的联系。
实体之间的联系通常是指不同实体集之间的联系。
2.概念模型的一种表示方法
实体——联系方法:该方法用E-R图来描述现实世界的概念模型,也称为E-R模型。
4.常用的数据模型
非关系模型(格式化模型)
网状模型(Network Model)
层次模型(Hierarchical Model)
关系模型(Relational Model)
面向对象模型(Object Oriented Model)
对象关系模型(Object Relational Model)
格式化模型中数据结构的基本单位是基本层次联系(基本层次联系,指两个记录以及它们之间的一对多【包括一对一】的联系)。
5.层次模型
层次模型是数据库系统中最早出现的数据模型 ,用树形结构来表示各类实体以及实体间的联系 。
1.结构特征:
有且只有一个结点没有双亲结点,这个结点称为根结点
根以外的其它结点有且只有一个双亲结点
2.层次模型的特点:
结点的双亲是唯一的
只能直接处理一对多的实体联系
每个记录类型可以定义一个排序字段,也称为码字段
任何记录值只有按其路径查看时,才能显出它的全部意义
没有一个子女记录值能够脱离双亲记录值而独立存在
3.优点
层次模型的数据结构简单清晰。
查询效率高,性能优于关系模型,不低于网状模型
层次数据模型提供了良好的完整性支持
4.缺点
多对多联系表示不自然
对插入和删除操作的限制多,应用程序的编写比较复杂
查询子女结点必须通过双亲结点
由于结构严密,层次命令趋于程序化
6.网状模型
网状数据库系统采用网状模型作为数据的组织方式
1.结构特征:
允许一个以上的结点无双亲
一个结点可以有多于一个的双亲
2.优点
能够更为直接地描述现实世界,如一个结点可以有多个双亲
具有良好的性能,存取效率较高
3.缺点
-
结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
-
DDL、DML语言复杂,用户不容易使用
7.网状模型与层次模型的区别
网状模型允许多个结点没有双亲结点
网状模型允许结点有多个双亲结点
网状模型允许两个结点之间有多种联系(复合联系)
网状模型可以更直接地去描述现实世界
层次模型实际上是网状模型的一个特例
8.关系模型
1.基本概念
关系(Relation):一个关系对应通常说的一张表
元组(Tuple):表中的一行即为一个元组
属性(Attribute):表中的一列即为一个属性,给每一个属性起一个名称即属性名
主码(Key):表中的某个属性组,它可以唯一确定一个元组
域(Domain):属性的取值范围,分量元组中的一个属性值
关系模式:对关系的描述,关系名(属性1,属性2,…,属性n)
- 关系数据库中可命名的最小单位是字段。
2.特点
关系必须是规范化的,满足一定的规范条件。最基本的规范条件:关系的每一个分量必须是一个不可分的数据项, 不允许表中还有表。
数据操作是集合操作,操作对象和操作结果都是关系。
存取路径对用户隐蔽,用户只要指出“干什么”,不必详细说明“怎么干”。
3.关系的完整性约束条件
实体完整性
参照完整性
用户定义的完整性
4.优缺点
优点:
与格式化模型不同,关系模型是建立在严格的数学概念的基础上的。
结构简单侵袭,概念单一。无论是实体还是实体之间的联系都用关系来表示,对数据的更新和检索的结果也是关系(即表)。
存取路径对用户透明,从而具有更高的数据独立性和安全性。
缺点:查询效率不如格式化数据模型,为提高性能,必须对用户的查询请求进行优化,增加了开发DBMS的难度。
1.4数据库系统的结构
从数据库管理系统角度看,数据库系统通常采用三级模式结构,是数据库系统内部的系统结构。
从数据库最终用户角度看(数据库系统外部的体系结构) ,数据库系统的结构分为:
单用户结构
主从式结构
分布式结构
客户/服务器
浏览器/应用服务器/数据库服务器多层结构等
1.数据库系统模式的概念
型(Type):对某一类数据的结构和属性的说明
值(Value):是型的一个具体赋值
模式(Schema):数据库中全体数据逻辑结构和特征的描述。是型的描述,反映的是数据的结构及其联系,模式是相对稳定的。
实例(Instance):模式的一个具体值称为实例。同一个模式可以有很多实例,实例随数据库中的数据的更新而变动,实例是相对变动的。
2.数据库系统的三级模式结构
模式(Schema):也称逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图,一个数据库只有一个模式。
外模式(External Schema):也称子模式或用户模式,是数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述,是数据库用户的数据视图,是与某一应用有关的数据的逻辑表示。
介于模式与应用之间
外模式通常是模式的子集,一个数据库可以有多个外模式
同一外模式也可以为某一用户的多个应用系统所使用,但一个应用程序只能使用一个外模式。
每个用户只能看见和访问所对应的外模式中的数据,是保证数据库安全性的一个有力措施。
内模式(Internal Schema):也称存储模式,是数据物理结构和存储方式的描述,是数据在数据库内部的表示方式,一个数据库只有一个内模式。
3.数据库的二级映像功能与数据独立性
1.外模式/模式映象:
当模式改变时,数据库管理员修改有关的外模式/模式映象,使外模式保持不变。应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。
同一个模式可以有任意多个外模式 ,每一个外模式,数据库系统都有一个外模式/模式映象。
2.模式/内模式映象:
当数据库的存储结构改变了(例如选用了另一种存储结构),数据库管理员修改模式/内模式映象,使模式保持不变应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。
数据库中模式/内模式映象是唯一的。
数据与程序之间的独立性,使得数据的定义和描述可以从应用程序中分离出去。
1.5数据库系统的组成
1.硬件平台及数据库:
要有足够大的内存,存放操作系统、数据库管理系统的核心模块、数据缓冲区和应用程序。
有足够大的磁盘或磁盘阵列等设备存放数据库,有足够大的磁带(或光盘)做数据被备份。
要求系统有较高的通道能力,以提高数据传送率。
2.软件:
数据库管理系统。
支持数据库管理系统运行的操作系统。
具有与数据库接口的高级语言编译系统,以便于开发应用程序。
以数据库管理系统为核心的应用开发工具。
3.人员:
数据库管理员:
决定数据库中的信息内容和结构。
决定数据库的存储结构和存取策略。
定义数据的安全性要求和完整性约束条件。
监控数据库的使用和运行。
数据库的改进和重组。
系统分析员:
负责应用系统的需求分析和规范说明
与用户及DBA协商,确定系统的硬软件配置
参与数据库系统的概要设计
数据库设计人员:
参加用户需求调查和系统分析
确定数据库中的数据
设计数据库各级模式
应用程序员:
设计和编写应用系统的程序模块
进行调试和安装
用户:
偶然用户:不经常访问数据库,但每次访问数据库时往往需要不同的数据库信息,这类用户一般是企业或组织机构的高中级管理人员。
简单用户:主要工作是查询和更新数据库,如银行的职员、机票预定人员、旅馆总台服务员等。
复杂用户:包括工程师、科学家、经济学家、科技工作者等,直接使用数据库语言访问数据库,甚至能够基于数据库管理系统的API编制自己的应用程序。