引言
数据库系统的发展经历了三改演变
层次/网状数据库系统、关系数据库系统、新一代数据库系统
早就了四位图灵奖得主
(1)C.W.Bachman,网状数据库之父
1924年出生于美国堪萨斯州的曼哈顿。 1970—1981年在 Honeywell公司任总工程师,兼任Cullinet软件公司的副总裁。 他在数据库方面的杰出成就:1960年为通用电气开发了世界上第一个网状数据库系统IDS;积极推动与促成了数据库标准的制定:DBTG报告,成为数据库历史上 具有里程碑意义的文献。1971年第一版,73、78、81、84修订版。
巴赫曼在数据库技术的产生、发展与推广应用方面都发挥了巨大的作用。
1973获图灵奖。
1983年成立自己的公司—Bachman Information System
(2)E.F.Codd,关系数据库之父、美国工程院院士
英国人,1923生于英格兰中部波特兰。 第二次世界大战时应征入伍,在皇家空军服役。 1942-1945年间任机长,参与了许多惊心动魄的空战。
大战结束后,到英国牛津大学 数学专业 理学士及硕士学位,48年远渡大西洋 到IBM工作从事操作系统和自动机理论研究。
年近40重返密歇根大学进修计算机与通信专业 1963年获得硕士学位,1965年又获得博士学位。
60年代后期开始数据库研究, 1970年E.F.Codd 博士提出关系模型概念 (CACM,Vol.13, Vol.6, 1970 ,“A Relational Model of Data for Large Shared Data Banks” ACM在1983年把这篇论文列为从1958年以来的四分之一世纪中具有里程碑式 意义的最重要的25篇研究论文之一。)
1981年获图灵奖,84年从IBM公司退休。还创办了一个研究所和一个公司。
(3)James Gray,数据库技术和事务处理专家
1944年生,美国加州大学伯克利分校计算机科学系博士。
先后在贝尔实验室、IBM、Tandem、DEC等公司工作, 研究方向转向数据库领域。
由于他在数据库事务处理研究方面的原创性贡献以及在将研究原型转 化为商业产品的系统实现方面的技术领袖地位,1998年获奖(时任微 软研究员)。
2007年1月28日失踪。
(4)M.R.Stonebraker,现代主流数据库系统架构的奠基人
1971年至2000年为第一阶段,从事关系数据库的 体系架构与实现技术研究 。
2001年至2008年为第二阶段,在One-size-does-not-fit-all的理念 下,开发了一系列新型数据库系统的体系架构设计与产品开发 。
2009年至今为第三阶段,大数据系统的体系架构设计与实践 。
2014年获图灵奖 2015年10月22日中国计算机大会上(合肥)做大会报告
发展了一门计算机基础学科
数据建模和DBMS核心技术为主,内容丰富、领域广
带动了一个巨大软件产业:是理论成果转化为产品的成果范例
DBMS及其相关工具产品、应用套件、解决方案
数据库技术和系统已经成为信息系统的核心技术和重要基础设施
我国数据库发展历程:在数据库技术发展的起跑线上,中国晚了约15年
70年代 | 看 | 引进 | 1976年萨师煊教授将数据库概念引入国 内,在全国讲学,在人大开设数据库课 |
80年代 | 学 | 请进来 走出去 | 外国专家来华讲学 中国专家出国进修 |
90年代 | 赶 | 研发 开发 应用 | 国家攻关、863高技术项目、国家自然基 金等等 |
21世纪 | 创 | 创新研发 产品开发 应用集成 | 创新研究 与国际研究同步、立足应用、 开发自主的数据管理系统、 |
1.1 数据库系统概述
1.1.1 数据库的4个基本概念
数据(Data):是数据库存储的基本对象
数据的定义:描述事物的符号记录。
数据的种类:数字、文字、图形、图形、音频、视频、人事档案记录、订单情况等等。
数据的举例:
数据的含义成为数据的语义,数据与其语义是不可分的。
例如:93是一个数据
语义1:学生某门课的成绩
语义2:某人的体重
语义3:开发部门人数
日常生活中,人们可以直接用自然语言来描述事物。
计算机中常常用记录来描述,如人事档案中的人事记录:(李明,男,199005,广东广州,产品开发部,2018)
数据的形式不能完全表达其内容。
数据的解释:
语义:人员姓名、性别、出生年月、籍贯、所在部门、加入公司时间
解释:李明是开发员,1990年5月生,男,广东广州人,2018年加入开发部
数据是有结构的:记录是计算机存储数据的一种格式或一种方法。
数据库(Database,DB):长期存储在计算机内、有组织的、可共享的大量数据的集合。
建立数据库原因:
收集并抽取出一个应用所需要的大量数据,将其保存,以供进一步加工处理,抽取有用信息,转换为有价值的知识。
数据库的基本特征:
数据可按一定的数据模型组织、描述和存储
可为各种用户共享、冗余度较小、易扩展
数据独立性较高
数据库管理系统(DataBase Management System,DBMS):位于用户应用与操作系统之间的一层数据管理软件,是基础软件,是一个大型复杂的软件系统
数据库管理系统的用途:
科学地组织和存储数据、高效地获取和维护数据。
数据库在计算机系统中的位置:
数据库管理系统的主要功能:
(1)数据定义功能:
提供数据定义语言(DDL)
定义数据库中的数据对象
(2)数据组织、存储和管理:
分类组织、存储和管理各种数据
确定数据在存储级别上的结构和存取方式
实现数据之间的关系
提供多种存取方式提高存取效率
(3)数据操纵功能:
提供数据操纵语言(DML)
实现对数据库的基本操作(查询、插入、删除和修改)
(4)数据库的事务管理和运行管理:
数据的安全性、完整性、多用户对数据的并发使用
发生故障后的系统恢复数据库
由数据库管理系统统一管理和控制,保证实务正确运行。
(5)数据库的建立和维护功能:
提供实用程序和工具,完成数据库数据批量装载,数据库转存,介质故障恢复,数据库的重组织和性能监视等
(6)其他功能:
数据库管理系统与网络中其他软件系统的通信
数据库管理系统之间的数据转换
异构数据库之间的互访和互操作
数据库系统(DataBase System,DBS):在计算机系统中引入数据库后的系统构成;在不引起混淆的情况下,常常把数据库系统简称为数据库。
数据库系统的构成:
数据库
数据库管理系统(及其应用开发工具)
应用程序
数据库管理员(DataBase Administrator,DBA)
1.1.2 数据管理技术的产生和发展
数据管理:
对数据进行分类、组织、编码、存储、检索和维护
数据处理和数据分析的中心问题
数据管理技术的发展过程:
人工管理阶段(20世纪50年代中之前)
文件系统阶段(20世纪50年代末--60年代中)
数据系统阶段(20世纪60年代末--现在)
人工管理阶段 | 文件系统阶段 | 数据库系统阶段 | ||
背景 | 应用背景 | 科学计算 | 科学计算、管理 | 大规模数据管理 |
硬件背景 | 无直接存取存储设备 | 磁盘、磁鼓 | 大容量磁盘、磁盘阵列 | |
软件背景 | 无操作系统 | 有文件系统 | 有数据库管理系统 | |
特点 | 处理方式 | 批处理 | 联机实时处理,批处理 | 联机实时处理,分布处理,批处理 |
数据的管理者 | 用户(程序员) | 文件系统 | 数据库管理系统 | |
数据面向的对象 | 某一应用程序 | 某一应用 | 现实世界(一家企业、跨国公司) | |
数据的共享程度 | 无共享,冗余度极大 | 共享性差,冗余度大 | 共享性高,冗余度小 | |
数据的独立性 | 不独立,完全依赖于程序 | 独立性差 | 具有高度的物理独立性和一定的逻辑独立性 | |
数据的结构化 | 无结构 | 记录内有结构,整体无结构 | 整体结构化,用数据模型描述 | |
数据控制能力 | 应用程序自己控制 | 应用程序自己控制 | 由DBMS提供数据安全性、完整性、并发控制和恢复能力 |
应用程序与数据的对应关系:
人工管理阶段:
文件系统阶段:
数据库系统阶段:
1.1.3 数据库系统的特点
(1) 数据结构化
数据的整体结构化是数据库的主要特征之一
不再仅仅针对某一个应用,而是面向整个企业或组织
不仅数据内部结构化,整体是结构化的,数据之间具有联系
数据记录可以变长
数据的最小存取单位是数据项
数据用数据模型描述,无需应用程序定义
(2) 数据的共享性高,冗余度低且易扩充
数据面向整个系统,可以被多个用户、多个应用共享使用
数据共享的好处
减少数据冗余,节约存储空间
避免数据之间的不相容性与不一致性
使系统易于扩充
(3) 数据独立性高
物理独立性:
指用户的应用程序与数据库中数据的物理存储是相互独立的。当数据的物理存储改变了,应用程序不用改变。
逻辑独立性:
指用户的应用程序与数据库的逻辑结构是相互独立的。数据的逻辑结构改变了,应用程序不用改变。
数据独立性由数据库管理系统的二级映象功能来保证。
(4) 数据由数据库管理系统统一管理和控制
数据库管理系统提供的数据控制功能:
数据的安全性(Security)保护:保护数据以防止不合法的使用造成的数据的泄密和破坏。
数据的完整性(Integrity)检查:保证数据的正确性、有效性和相容性。
并发控制(Concurrency Control):对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
数据库恢复(Recovery):将数据库从错误状态恢复到某一已知的正确状态。
1.2 数据模型:对现实世界数据特征的抽象
通俗地讲数据模型就是现实世界的模型
数据模型应满足三方面要求:
能比较真实地模拟世界;
容易为人所理解;
便于在计算机上实现;
数据模型是数据库系统的核心和基础
1.2.1 两类数据模型
数据模型分为两类(两个不同的层次)
(1)概念模型,也称信息模型
它是按用户的观点来对数据和信息建模,用于数据库设计。
(2)逻辑模型和物理模型
逻辑模型主要包括网状模型、层次模型、关系模型、面向对象数据模型、对象关系数据模型、半结构化数据模型等。
按计算机系统的观点对数据建模,用于DBMS实现。
物理模型是对数据最底层的抽象。
描述数据在系统内(磁盘)的表示方式和存取方法。
1.2.2 概念模型
概念模型的用途:
概念模型用于信息世界的建模
是现实世界到机器世界的一个中间层次
是数据库设计的有力工具
数据库设计人员和用户之间进行交流的语言
对概念模型的基本要求:
较强的语义表达能力
简单、清晰、易于用户理解
(1)信息世界中的基本概念
a.实体(Entity):客观存在并相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念。
b.属性(Attribute):实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画。
c.码(Key):唯一标识实体的属性集称为码。
d.实体型(Entity Type):用实体及其属性名集合来抽象和刻画同类实体称为实体称为实体型。
e.实体集(Entity Set):同一类实体的集合称为实体集。
f.联系(Relationship):现实世界中事物内部以及事物之间的联系在信息世界中反映为实体内部的联系和实体之间的联系。
实体内部的联系:是指组成实体的各属性之间的联系
实体之间的联系:通常是指不同实体集之间的联系
实体之间的联系有一对一、一对多和多对多等多种类型:
概念模型的一种表示方法:实体-联系方法(Entity-Relationship Approach)。
用E-R图来描述现实世界的概念模型。
E-R方法也称为E-R模型。
1.2.3 数据模型的组成要素
数据模型是严格定义的一组概念的集合
精确地描述了系统的静态特性、动态特性和完整性约束条件(Integrity Constraints)。
数据模型由三部分组成:
1 数据结构--描述系统的静态特性
2 数据操作--描述系统的动态特性
3 完整性约束
刻画数据模型性质的重要方面:
数据结构的类型来命名数据模型
层次结构-层次模型、网状结构--网状模型、关系结构—关系模型
描述数据库的组成对象--对象的类型、内容、性质。
描述对象之间的联系。
数据操作
对数据库中各种对象的实例允许执行的操作的集合
包括操作及有关的操作规则
数据操作的类型
查询
更新(包括插入、删除、修改)
数据操作语言
定义数据操作的确切含义、符号、优先级别
实现数据操作的语言
查询语言——Query Language
更新语言——Insert、Delete、Update
一组完整性规则的集合
完整性规则:给定的数据模型中数据及其联系所具有的制约和依存规则。
用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效和相容
数据模型对完整性约束条件的定义
反映和规定必须遵守的基本的通用的完整性约束条件。
提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
1.2.4 常用的数据模型
层次模型(Hierarchical Model)
网状模型(Network Model)
关系模型(Relational Model))
面向对象数据模型(Object Oriented Data Model)
对象关系数据模型(Object Relational Data Model)
半结构化数据模型(Semi-struture Data Model)—如XML
非结构化数据模型、图模型 ………
1.2.5 层次模型
层次模型用树形结构来表示各类实体以及实体间的联系。
表示方法:
实体型:用记录类型描述。
每个结点表示一个记录类型(实体)。
属性:用字段描述。
每个记录类型可包含若干个字段。
联系:用结点之间的连线表示记录类型(实体)之间的一对多的父子联系
层次模型的定义:
满足下面两个条件的基本层次联系的集合为层次模型:
1. 有且只有一个结点没有双亲结点,这个结点称为根结点
2. 根以外的其它结点有且只有一个双亲结点
1. 层次模型的数据结构
2. 层次模型的数据操纵与完整性约束
层次模型的数据操纵:查询、插入、删除、更新
层次模型的完整性约束条件:
无相应的双亲结点值就不能插入子女结点值。
如果删除双亲结点值,则相应的子女结点值也被同时删除。
更新操作时,应更新所有相应记录,以保证数据的一致性。
3.层次模型的优缺点
优点:
层次模型的数据结构比较简单清晰。
查询效率高,性能优于关系模型,不低于网状模型。
层次数据模型提供了良好的完整性支持。
缺点:
结点之间的多对多联系表示不自然。
对插入和删除操作的限制多,应用程序的编写比较复杂。
查询子女结点必须通过双亲结点。
层次数据库的命令(语言)趋于程序化。
1.2.6 网状模型
网状数据库系统采用网状结构来表示各类实体以及实体间的联系。
表示方法(与层次数据模型相同)
实体型:用记录类型描述。
每个节点表示一个记录类型。
属性:用字段描述。
每个记录类型可包含若干字段。
联系:用节点之间的连线表示记录类型之间一对多的父子联系。
网状模型的定义:
满足下面两个条件的基本层次联系的集合:
1. 允许一个以上的结点无双亲;
2. 一个结点可以有多于一个的双亲。
1.网状模型的数据结构
多对多联系在网状模型中的表示
网状模型间接表示多对多联系。
方法:将多对多联系分解成一对多联系。
例如:一个学生可以选修若干门课程,某一课程可以被多个学生选修,学生与课程之间是多对多联系。
引进一个学生选课的联结记录:选课(学好,课程号,成绩)
2.网状模型的数据操纵与完整性约束
导航式的查询语言和增删改操作语言。
完整性约束条件不严格:
允许插入尚未确定双亲结点值的子女结点值。
允许只删除双亲结点值。
实际的网状数据库系统提供了一定的完整性约束:
支持码的概念:唯一标识记录的数据项的集合,取唯一的值;
保证一个联系中双亲记录与子女记录之间是一对多联系;
可以定义双亲记录和子女记录之间某些约束条件。
3. 网状模型的优缺点
优点:
能够更为直接地描述现实世界,如一个结点可以有多个双亲;
具有良好的性能,存取效率较高。
缺点:
结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握;
DDL、DML语言复杂,用户不容易使用;
记录之间联系是通过存取路径实现的,应用程序必须选择存取路径,加重了程序员的负担。
1.2.7 关系模型
关系数据库系统采用关系模型作为数据的组织方式。
1970年美国IBM公司San Jose研究室的研究员E.F.Codd首次提出了数据库系统的关系模型。
计算机厂商推出的数据库管理系统几乎都支持关系模型。
1. 关系模型的数据结构
在用户观点下,关系模型中数据的逻辑结构是一张二维表。
关系(Relation)—— 一个关系对应通常说的一张表。
元组(Tuple)—— 表中的一行即为一个元组。
属性(Attribute)——表中的一列即为一个属性,给每一个属性起一个名称即属性名。
主码(Key)——也称码键。表中的某个属性组,它可以唯一确定一个元组。
域(Domain)——是一组具有相同数据类型的值的集合。属性的取值范围来自某个域。
分量——元组中的一个属性值。
关系模式——对关系的描述
关系名(属性1,属性2,…,属性n)
学生(学号,姓名,年龄,性别,系名,年级)
关系必须是规范化的,满足一定的规范条件。最基本的规范条件:关系的每一个分量必须是一个不可分的数据项,不允许表中还有表。
2. 关系模型的操纵与完整性约束
数据操作是集合操作,操作对象和操作结果都是关系:查询,插入,删除,更新
存取路径对用户隐蔽,用户只要指出“找什么”,不必详细说明“怎么找”。
提高了数据的独立性,提高了用户生产率。
关系的完整性约束条件:
实体完整性
参照完整性
用户定义的完整性
3. 关系模型的优缺点
优点:
建立在严格的数学概念的基础上
概念单一:
实体和各类联系都用关系来表示
对数据的检索结果也是关系
关系模型的存取路径对用户透明:
具有更高的数据独立性,更好的安全保密性
简化了程序员的工作和数据库开发建立的工作
缺点:
存取路径对用户透明,查询效率往往不如格式化数据模型
为提高性能,必须对用户的查询请求进行优化,增加了开发数据库管理系统的难度