数据处理技术
1)数据
数据(Data) 是描述现实世界中各种具体事物或抽象概念的符号记录。除了常用的数字数据外,文字(如名称)、图形、图像、声音等信息,也都是数据。是数据库存储的基本对象。
2)数据处理
数据处理(Data Process)是指对数据的分类、组织、编码、存储、查询、维护、加工、计算、传播以及打印等一系列的活动。其目的就是从大量的数据中提取出有效的信息资源。
数据管理是数据处理的核心。从数据管理角度
数据库技术的发展阶段:人工管理阶段——文件系统阶段——数据库系统阶段
1. 数据库系统的特点(优点)
(1)数据结构化
(2)较高的数据共享性
(3)较高的数据独立性
(4)数据由DBMS统一管理和控制
2. 数据库系统的组成
数据库系统是指在计算机系统中引入数据库后的系统,一般由数据库、数据库管理系统、数据库开发工具、数据库应用系统和数据库用户构成,其中数据库管理系统(DBMS)为数据库系统的核心。
数据库系统的层次结构
3)数据库系统的基本组成
1.数据库
数据库(DataBase,简称DB)是指长期存储在计算机内有组织的、可共享的数据集合,即在计算机系统中按一定的数据模型组织、存储和使用的相关联的数据集合。它不仅包括描述事物的数据本身,还包括相关事物之间的联系。
2.数据库管理系统(DataBase Management System,DBMS)
数据库管理系统是数据库系统的核心,是为数据库的建立、使用和维护而配置的软件。
常见的数据库管理系统,如ACCESS、SQL Server、MySQL、Oracle、DB2等。
数据库管理系统的功能:以下4个方面
(1)数据定义和操纵功能
DBMS提供数据定义语言(Data Definition Language, DDL)对数据库中的对象进行定义和数据操纵语言(Data Manipulation Language,DML) 检索、插入、修改、删除数据库中的数据。
(2)数据库运行控制功能
对数据库进行并发控制、安全性检查、完整性约束条件的检查和执行、数据库的内部维护等
(3)数据库的组织、存储和管理
DBMS确定以何种文件结构和存取方式物理地组织数据,如何实现数据之间的联系,以便提高存储空间利用率和各种操作的时间效率。
(4)建立和维护数据库
3.数据库应用
凡使用数据库技术管理其数据的系统都称为数据库应用系统。
4.数据库用户
(1)终端用户
(2)应用程序员
应用程序员负责分析、设计、开发、维护数据库系统中各类应用程序
(3)数据库管理员(Database Administrator, DBA)*
数据库管理员是高级人员,其职能是管理、监督、维护数据库系统的正常运行,负责全面管理和控制数据库系统。
4)数据库的三级模式
DBMS将数据库的体系结构分为三级模式:外模式、模式和内模式。
1.模式
模式也称概念模式或逻辑模式,是对数据库中全部数据的逻辑结构和特征的描述,是所有用户的公共数据视图。
2.内模式
内模式也称存储模式或物理模式,是对数据物理结构和存储方式的描述,是数据在数据库内部的表示方式。一个数据库只有一个内模式。
3.外模式
外模式也称子模式或用户模式,它是对数据库用户能够看见和使用的局部数据的逻辑结构和特征的描述。外模式通常是模式的子集,一个数据库可以有多个外模式。
5)数据库的两级映像
DBMS在三级模式结构之间提供了两级映像:外模式/模式映像,模式/内模式映像。
1.外模式/模式映像
定义了该外模式与模式之间的对应关系,此映像的功能就是:保证了数据与程序的逻辑独立性,简称逻辑数据独立性*。
2)模式/内模式映像
模式/内模式映像是唯一的,它定义了数据库全局逻辑结构与存储结构之间的对应关系。此映像的功能是:保证了数据与程序的物理独立性,简称物理数据独立性*。
6)信息的三种世界
思考:风是什么? (速度、强度、方向...)
1.现实世界
现实世界就是人们所能看到的、接触到的世界。
2.概念世界
概念世界就是现实世界在人们头脑中的反映,又称信息世界。客观事物在概念世界中称为实体,反映事物间联系的是实体模型又称概念模型。
3.机器世界
机器世界又叫数据世界,是信息世界中的信息数据化后对应的产物。
7)概念模型
1.概念模型中的基本概念
(1)实体 (Entity) *:客观存在并可以相互区分的事物。
(2)属性 (Attribute) *:实体所具有的某些特性。实体是由属性组成的,通过属性对实体进行描述。例如,学生实体可由学号、姓名、性别等组成
(3)码(Key) *:一个实体往往有多个属性,它们构成该实体的属性集合。如果其中有一个属性或属性集能够唯一标识整个属性集合,则称该属性或属性集为该实体的码。
(4)实体型(Entity Type):具有相同属性的实体必然具有共同的特征和性质。用实体名及其属性名集合来抽象和刻画同类实体,称为实体型。例如,学生(学号,姓名,性别,出生年份,系,入学时间)就是一个实体型。
(5)实体集(Entity Set):同型实体的集合称为实体集。例如,全体学生就是一个实体集。
(6)联系(Relationship) * : 现实世界的事物之间是有联系的,即各实体型之间是有联系的。
一对一联系(1:1) 一对多联系(1 : M) 多对多联系(M : N)
2.实体-联系(E-R)模型*
E-R(Entity-Relationship)模型。主要成分是实体、联系和属性
1)用矩形表示实体,在框内写上实体名。
(2)用椭圆形表示实体的属性,并用无向边把实体和属性连接起来。
(3)用菱形表示实体间的联系,在菱形框内写上联系名,用无向边分别把菱形框与有关实体连接起来,在无向边旁注明联系的类型。
注:有的联系也有属性。
学生实体和班级实体的联系的E-R图:
8)数据模型
1.定义
数据模型是对客观事物及联系的数据描述,是概念模型的数据化。
数据模型通常由数据结构、数据操作和数据的完整性约束三部分(三要素*)组成。
(1)数据结构:是对数据库静态特征的描述
(2)数据操作 :指数据库中各记录允许执行的操作的集合,例如插入、删除、修改、检索、更新等操作,是对数据库动态特征的描述。
(3)数据的完整性约束:是关于数据状态和状态变化的一组完整性约束规则的集合,以保证数据的正确性、有效性和一致性。例如,性别的取值范围为“男或女”等。
2.三种常见的数据模型
(1)层次模型
层次模型用树形结构来表示各类实体以及实体间的联系。缺点:无法直接表示多对多联系。插入和删除操作的限制比较多。
(2)网状模型
网状模型是一个不加任何条件的无向图。缺点是结构比较复杂,用户不易掌握。
层次模型是网状模型的特殊形式,网状模型是层次模型的一般形式。
(3)关系模型*
用二维表格*结构表示实体以及实体之间的联系的数据模型称为关系模型。
- 关系模型的重要概念*:
- 关系
一个关系就是一张二维表,每个关系都有一个关系名,在计算机里,一个关系可以存储为一个文件。 - 元组
二维表中的行称为元组,每一行是一个元组。元组对应存储文件中的一个记录。 - 属性
二维表的列称为属性,每一列有一个属性名,属性值是属性的具体值。 - 域
域是属性的取值范围。 - 关系模式*
对关系的信息结构及语义限制的描述称为关系模式,用关系名和包含的属性名的集合表示。例如,职工信息表的关系模式是:职工(职工号,姓名,性别,年龄,工资)。 - 关键字或码
在关系的属性中,能够用来唯一标识元组的属性(或属性组合)称为关键字或码(Key)。 - 候选关键字或候选码
如果在一个关系中,存在多个属性(或属性组合)都能用来唯一标识该关系中的元组,这些属性(或属性组合)都称为该关系的候选关键字或候选码,候选码可以有多个。 - 主键或主码
在一个关系的若干候选关键字中,被指定作为关键字的候选关键字称为该关系的主键或主码(Primary Key),一般,我们习惯选择号码作为一个关系的主码。 - 主属和非主属性
在一个关系中,包含在任何候选码中的各个属性称为主属性;不包含在任一候选码中的属性称为非主属性。 - 外键或外码
一个关系的某个属性(或属性组合)不是该关系的主码或只是主码的一部分,却是另一个关系的主码,则称这样的属性为该关系的外键或外码(Foreign Key)。外码是表与表联系的纽带。