目录
引言
21世纪,人类迈入了“信息爆炸时代”,大量的数据、信息在不断产生,伴随而来的就是如何安全、有效的存储、检索和管理它们。对数据的有效存储、高效访问、方便共享和安全控制已成为信息时代亟待解决的问题。
一、数据库简介
1. 使用数据库的必要性
-
使用数据库可以高效且条理分明地存储数据,使人们能够更加迅速、方便地管理数据。
-
数据库技术是计算机科学的核心技术之一,具有完备的理论基础。对数据库基本概念的掌握,将有助于对数据库的理解。
-
数据库具有以下特点:
可以结构化存储大量的数据信息,方便用户进行有效的检索和访问。
可以有效地保持数据信息的一致性、完整性,降低数据冗余。
可以满足应用的共享和安全方面的要求。
2. 数据库的基本概念
2.1 数据
- 描述事物的符号记录称为数据(Data)
- 数据不仅仅包括数字,文字、图形、图像、声音、档案记录等都是数据
- 在数据库中,数据是以“记录”的形式按统一的格式进行存储的,而不是杂乱无章的。相同格式喝类型的数据统一存放在一起,而不会把“人”和“书”混在一起存储,这样的话数据的存储就能井然有序了
- 如下表中存储的一行数据,在数据库中称为一条“记录”(Record),每条记录中的每一个输出称为“列”,图中的编号、姓名、性别、年龄、民族、专业都是列名
编号 | 姓名 | 性别 | 年龄 | 民族 | 专业 |
---|---|---|---|---|---|
1 | 张三 | 男 | 22 | 汉族 | 信息技术 |
2 | 李四 | 男 | 23 | 回族 | 音乐 |
3 | 黑娃 | 女 | 20 | 汉族 | 自动化 |
4 | 狗蛋 | 女 | 21 | 汉族 | 会计 |
2.2 数据库和数据库表
- 不同的记录组织在一起,就形成了数据库(Database,DB)的“表”(Table)
- 也可以说,表是用来存储具体数据的
- 数据库就是表的集合,它是以一定的组织方式存储的相互有关的数据集合。例如,关系数据库的表由记录组成,记录由字段组成,字段由字符或数字组成。它可以供各种用户共享,具有最小冗余度和较高的数据独立性。它是统一管理的相关数据的集合。
- 通常,数据库并不是简单地存储这些数据的,还要表示它们之间的关系。比如说,书和人是存在联系的,书的作者可能就是某个人,因此需要建立书与人的“关系”。这种关系也需要用数据库来表示,因此关系的描述也是数据库的一部分。
2.3 数据库管理系统
数据库管理系统(DBMS)是实现对数据库资源有效组织、管理和存取的系统软件。它在操作系统的支持下,支持用户对数据库的各项操作。
DBMS主要包括以下功能:
-
数据库的建立和维护功能:
包括建立数据库的结构和数据的录入与转换、数据库的转储与恢复、数据库的重组与性能监视等功能。 -
数据定义功能:
包括定义全局数据结构、局部逻辑数据结构、存储结构、保密模式及信息格式等功能。保证存储在数据库中的数据正确、有效和相容,以防止不合语义的错误数据被输入或输出。 -
数据操纵功能:
包括数据查询统计和数据更新两个方面。 -
数据库的运行管理功能:
这是数据库管理系统的核心部分,包括并发控制、存取控制、数据库内部维护等功能。 -
通信功能:
DBMS 其他软件系统之间的通信,如Access能与其他Office组件进行数据交换。
2.4 数据库系统
-
数据库系统 (DBS) 是一个人一机系统,一般由硬件、操作系统、数据库、DBMS、应用软件和数据库用户(包括数据库管理员)组成。用户可以通过DBMS 操作数据库,也可以通过应用程序操作数据库。
-
应用程序是利用 DBMS,为解决某个具体的管理或数据处理的任务而编制的一系列命令的有序集合。如果应用程序比较完善,能够提供友好的人机界面,并编译成可执行文件发行,使得普通用户不需要具备计算机的专业知识,在较短时间内就学会使用,那么就称为数据库应用软件。
-
常用的数据库应用软件有人事管理、财务管理、图书管理等信息管理软件及各类信息咨询系统等。
-
数据库管理员(DBA)负责数据库的更新和备份、数据库系统的维护、用户管理等工作,保证数据库系统的正常运行。
通过下图,可以看出用户获取数据的过程:
客户端软件发送数据请求给 DBMS,由DBMS调用相关的底层指令,从数据库中的数据文件中调取相关的数据,
然后将查询到的数据结果返回给 DBMS,经由DBMS处理后返回给客户端程序。
二、数据库的发展史
数据库技术的发展已经成为先进信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。
数据库技术最初产生于20世纪60年代中期,根据数据模型的发展,可以划分为三个阶段:
1. 初级阶段(第一代数据库)
- 自20世纪60年代起,第一代数据库系统问世
- 它们是层次模型与网状模型的数据库系统,为统一管理和共享数据提供了有力的支撑
- 在这个阶段中,数据库的代表是 1969 年 IBM 公司研制的层次模型的数据库管理系统——IMS (InformationManagement System,信息管理系统)和 20 世纪 70 年代美国数据系统语言协会(CODASYL)下述数据库任务组(DBTG)提议的网状模型
2. 中级阶段(第二代数据库)
- 20 世纪 70 年代初,第二代数据库—关系数据库开始出现
- 自1970 年 IBM 研究员阐述了关系模型的概念后,IBM 大力投入关系数据库的研究
- 关系数据库的底层实现起来比较容易,所以很快被采用,并进入了众多商业数据库的研发计划,Oracle 就是当时顺应关系数据模型的出现而成立的一家专做(关系)数据库的公司
- 20 世纪 80 年代初,IBM 公司的关系数据库系统 DB2 问世,而 Oracle 公司也将 Orale 移植到桌面计算机上
这时,作为第二代数据库系统的关系数据库,开始逐步取代层次与网状模型的数据库,成为行业主流
到目前为止,关系数据库系统仍占领数据库应用的主要地位 - 关系数据库系统将结构化查询语言(Structured Query Language,SQL)作为数据定义语言(DDL)和数据操作语言(DML),它一诞生就成为关系数据库的标准语言
- SQL 使得关系数据库中数据库表的查询可以通过简单的、声明性的方式进行,大大简化了程序员的工作
3. 高级阶段(第三代数据库)
- 自20世纪80年代开始,适应不同领域的新型数据库系统不断涌现
- 面向对象的数据库系统,实用性强、适应面广
- 20世纪90年代后期,形成了多种数据库系统共同支撑应用的局面
- 一些新的元素被添加进主流数据库系统中,例如,Oracle支持的“关系—对象”数据库模型
三、当今主流数据库介绍
在数据库技术日益发展的今天,主流数据库代表着成熟的数据技术,了解常用的数据库,就可以知道数据库技术发展的程度,以及对未来的大体方向。
1. 关系数据库
-
SQL Server(微软公司产品):面向 Windows 系统,简单、易用,更容易上手
-
Oracle(甲骨文公司产品):Oracle 数据库是世界上使用广泛的数据库之一,面向所有主流平台,安全完善,操作复杂
-
DB2(IBM 公司产品):面向所有主流平台,大型、安全、完善
-
MySQL(被甲骨文公司收购):体积小、速度快、开源
2. 非关系数据库
非关系数据库也被称为 NoSQL(Not Only SQL),存储数据不以关系模型为依据,不需要固定的表格式
非关系型数据库作为关系型数据库的一个补充,在日益快速发展的网站时代,发挥着高效率与高性能
-
非关系型数据库的优点:
①满足数据库高并发读写的需求
②对海量数据高效率存储与访问
③数据库高扩展性与高可用性的需求 -
常用的非关系数据库如: Memcached、Redis、MongoDB、HBase
3. 关系数据库概述
关系数据库系统是基于关系模型的数据库系统,是关系模型应用到数据库领域的实例化,它的基本概念来自于关系模型。
3.1 基本结构
- 关系数据库使用的存储结构是多个二维表格,即反映事物及其联系的数据描述是以平面表格形式体现的
- 在每个二维表中,每一行称为一条记录,用来描述一个对象的信息;每一列称为一个字段,用来描述对象的一个属性。数据表与数据库之间存在相应的关联,这些关联用来查询相关的数据。下图所示就是一个数据表。
- 关系数据库是由数据表之间的关联组成的。其中:
① 数据表通常是一个由行和列组成的二维表,每一个数据表分别说明数据库中某一特定的方面或部分的对象及其属性。
② 数据表中的行通常叫做记录或者元组,它代表众多具有相同属性的对象中的一个。
③ 数据表中的列通常叫做字段或者属性,它代表相应数据库中存储对象的共有的属性。
- 实体:也称为实例,对应现实世界中可区别于其他对象的“事件”或“事物”,如银行客户、银行账户等
- 属性:实体所具有的某一特性,一个实体可以有多个属性;如银行客户实体集中的每个实体均具有姓名、住址、电话等属性
- 联系:实体集之间的对应关系称为联系,也称为关系;如银行客户和银行账户之间存在”储蓄“的关系
- 所有实体及实体之间联系的集合构成一个关系数据库
3.2 主键
数据表中的每行记录都必须是唯一的,而不允许出现完全相同的记录,通过定义主键(主关键字,Promary Key)可以保证记录(实体)的唯一性。
- 主键唯一标识表中的行数据,一个主键值对应一行数据,主键由一个或多个字段组成,其值具有唯一性,不允许取空值(NULL)
- 一个表只能有一个主键
3.3 外键
- 一个关系数据库通常包含多个表,通过外键(Foreign Key)可以使这些表关联起来
- 外键用于建立和加强两个表数据之间的链接的一列或多列
- 通过表中主键值得一列或多列添加到另一个表中,可创建两个表之间的链接,这个列就被称为第二个表的外键。
4. 关系型数据库和非关系型数据库的区别
4.1 关系型数据库
-
关系数据库结构是二维数据库表,二维表当中每个字段(列)用来描述对象的一个属性,每个记录(行)用来描述一个对象的信息(完整信息),关系数据库写到哪里也就是存储在硬盘当中,读写系统就会受到的IO限制或者瓶颈
-
关系型数据库最典型的数据结构是表,由二维表及其之间的联系所组成的一个数据组织
-
优点:
①易于维护:都是使用表结构,格式一致;
②使用方便:SQL语言通用,可用于复杂查询;
③复杂操作:支持SQL,可用于一个表以及多个表之间非常复杂的查询。 -
缺点:
①读写性能比较差,尤其是海量数据的高效率读写;
②固定的表结构,灵活度稍欠;
③高并发读写需求,传统关系型数据库来说,硬盘I/O是一个很大的瓶颈。
4.2 非关系型数据库
-
MongoDB 、 Redis(内存数据库/缓存数据库)K-V键值对、与之类似的Memcache,K-V键值对redis-memecache对比:
相同点:存储高热数据(在内存中高速运行)
不同点:redis可以做持久化保存,可以存储对象 -
非关系型数据库严格上不是一种数据库,应该是一种数据结构化存储方法的集合,可以是文档或者键值对等
-
优点:
①格式灵活:存储数据的格式可以是key,value形式、文档形式、图片形式等等,文档形式、图片形式等等,使用灵活,应用场景广泛,而关系型数据库则只支持基础类型。
②速度快:nosql可以使用硬盘或者随机存储器作为载体,而关系型数据库只能使用硬盘;
③高扩展性;
④成本低:nosql数据库部署简单,基本都是开源软件。 -
缺点:
①不提供sql支持,学习和使用成本较高;
②无事务处理;
③数据结构相对复杂,复杂查询方面稍欠。
5. 数据完整性规则
为了维护数据库中的数据与现实世界的一致性,关系数据库的数据与更新操作必须遵循下列四类完整性规则:
-
实体完整性规则:
实体完整性规则要求关系中的元组在主键的属性上不能有空值,如果出现空值,那么主键值就起不到唯一标识元组的作用 -
域完整性规则:
域完整性也称列完整性,指定一个数据集对某一个列是否有效或确定是否允许空值 -
引用完整性规则:
如果两个表之间相互关联,那么引用完整性规则要求不允许引用不存在的元组 -
用户定义的完整性规则:
用户定义的完整性规则是针对某一具体数据的约束条件,由应用环境决定;
它反应了某一具体应用所涉及的数据必须满足的语义要求;
系统提供定义和检验这类完整性的机制,以便用统一的系统方法进行处理,不再由应用程序来承担这项工作。
总结
- 数据库是由数据库表和其他数据对象组成
- 经典数据模式有网状模型、层次模型和关系模型
- 主键由一个或多个字段组成,具有唯一性,不允许取空值,一个表只能有一个主键
- 一个关系数据库通常包含多个表,可以通过外键将这些表关联起来