第一章 数据库系统概论
1.1数据和数据管理
1.数据和信息
-
数据是对事物特征所进行的抽象化,符号化的表示。
-
信息是数据所表示出来的意义。
数据是表示信息的,但并非所有的数据都能表示信息,信息知识加工处理后的数据,是数据所表达的内容。
2.数据处理和数据管理
-
数据处理是指将数据转化为信息的过程,包含对数据的收集、储存、分类、计算、加工、检索和传输等
-
数据管理是指利用数据库管理系统(DBMS)对数据的收集、组织、存储、检索和维护等操作
1.2数据管理技术
1.2.1 人工管理阶段
程序与数据是一个整体,一个程序中的数据不能被其他程序使用,特点如下:
-
程序之间不能共享数据;
-
程序复杂
-
数据量小且无法长期保存
-
人工重复输入数据数据不保存
1.2.2 文件管理阶段
文件系统为程序与数据时间提供了一个公共接口,使应用程序采用统一的存取方法来存取、操作数据,程序和数据之间不再直接对接,因而有了一定的独立性。
文件的逻辑结构和存储结构有一定的差别,需要对程序进行一定的修改。特点如下:
-
数据可以长期保存。
-
数据冗余大,共享性差。
-
数据独立性差。
-
缺乏对数据的统一控制管理
1.2.3 数据库管理阶段
数据库实在数据库管理系统的集中控制下,按一定的组织方式存储起来、相关关联的数据集合。特点如下:
-
数据结构化:用特定的数据模型来表示事物及事物之间的联系。
-
数据共享性高:减少数据冗余,减少更新异常。
-
数据独立性强:程序和数据相对独立。
-
数据粒度小:粒度单位是记录中的数据项,粒度越小处理速度就越快、越方便。
-
统一的管理和控制:数据定义、操作和控制由数据库管理系统(Database Management System,DBMS)统一管理和控制。例如,Access、Oracle和SQL Server等数据库管理系统软件。
-
独立的数据操作界面:DBMS提供管理平台,通过命令或界面(菜单、工具栏、对话框等)对数据库进行访问和处理。
1.3数据库和数据库系统
1.3.1 数据库系统的组成
DBS是一个计算机的应用系统。它使把有关的计算机硬件、操作系统、数据库。
1.3.2 数据库的三级模式结构
外模式(多个)、模式和内模式(有且只有一个)
-
外模式:① 一个数据库可以有多个外模式; ② 外模式就是用户视图; ③ 外模式是保证数据安全性的一个有力措施。
-
内模式: ① 一个数据库只有一个内模式; ② 一个表可能由多个文件组成,如:数据文件、索引文件。 它是数据库管理系统(DBMS)对数据库中数据进行有效组织和管理的方法 其目的有: ① 为了减少数据冗余,实现数据共享; ② 为了提高存取效率,改善性能。
两级映射关系保证了数据库的逻辑独立性
数据库的三级模式是数据库在三个级别 (层次)上的抽象,使用户能够逻辑地、抽象地处理数据而不必关心数据在计算机中的物理表示和存储。实际上 ,对于一个数据库系统而言一有物理级数据库是客观存在的,它是进行数据库操作的基础,概念级数据库中不过是物理数据库的一种逻辑的、抽象的描述(即模式),用户级数据库则是用户与数据库的接口,它是概念级数据库的一个子集(外模式)。
用户应用程序根据外模式进行数据操作,通过外模式一模式映射,定义和建立某个外模式与模式间的对应关系,将外模式与模式联系起来,当模式发生改变时,只要改变其映射,就可以使外模式保持不变,对应的应用程序也可保持不变;另一方面,通过模式一内模式映射,定义建立数据的逻辑结构(模式)与存储结构(内模式)间的对应关系,当数据的存储结构发生变化时,只需改变模式一内模式映射,就能保持模式不变,因此应用程序也可以保持不变。
1.3.3 数据库系统的优点
-
数据共享
-
减少数据冗余
-
具有较高的数据独立性
-
增强了数据安全性和完整性保护
1.4数据模型
1.4.1 数据处理的三个阶段
现实世界->(抽象)信息世界->(转换)机器世界
1.4.2 概念模型
1.实体
实体是客观事物的真实反映。可以是实际存在的对象、抽象的概念或事件。
(1)属性
将事物的特性称为实体属性
(2)实体型和实体值
实体型就是对实体的结构描述,通常是实体名和属性名的集合;具有相同属性的实体,是属性值的集合。
(3)属性型和属性值
属性型就是属性名及其取值的类型,属性值就是属性在其值域的值
实体集:实体集是具有相同属性的实体的集合
-
实体间的联系
实体之间对应的关系就是实体之间的联系。
-
一对一联系(1:1联系)
-
一对多联系(1:n联系)
-
多对多联系(m:n联系)
3.E-R图:描述现实世界的概念模型
E-R图又称实体关系图,是一种提供了实体,属性和联系的方法,用来描述现实世界的概念模型。通俗点讲就是,当我们理解了实际问题的需求之后,需要用一种方法来表示这种需求,概念模型就是用来描述这种需求。
(1)确认实体
(2)确认实体属性
(3)实体与实体之间的联系(联系的类型)
特殊情况特殊处理
1.4.3 逻辑模型
1.层次模型
用树形结构来表示实体及其之间的联系。根据属性结构的特点,建立数据的层次模型需要满足以下两个条件:
-
有一个节点没有父节点,这个节点也就是根节点。
-
其他节点有且只有一个父节点。
如果没有特别指明,数据模型就是指逻辑模型中的层次模型。
2.网状模型
用以实体型为节点的有向图表示实体之间的联系,其特点如下
-
可以有一个以上的节点无父节点
-
至少有一个节点有多个父节点
3.关系模型
关系模型与层次模型和网状模型相比有着本质的区别,它是用二维表格来表示实体及其相互之间的关系。
一个关系就是没有重复的行和重复的列的二维表,(除表头外)二维表的每一行称为表的一个元组或一条记录。每一列是属性。
1.5数据管理技术的新发展
1.5.1 分布式数据库
是地理上分布在计算机网格的不同结点,逻辑上属于同以系统的数据库系统。(物理上是分布的,逻辑上是统一的)主要的特点是:
-
数据是分布的
-
数据是逻辑相关的
-
结点的自治性
1.5.2 多媒体数据库
能存储和管理多种媒体的数据库称为多媒体数据库。多媒体数据库对数据路管理系统的功能要求:
-
要求数据库管理系统能方便地描述和处理具有内部层次结构的数据
-
要求数据库管理系统提供由用户自定义的新的数据类型和相应操作的功能
-
要求数据库管理系统能够灵活处理
1.5.3面向对象数据库
1.5.4数据仓库技术
数据仓库,OLDP,数据挖掘
1.5.5 大数据技术
-
数据规模大
-
数据种类多
-
要求数据处理速度快
-
数据价值密度低