一、基础概念
(1)数据
是数据库中存储的基本对象,是描述事物的符号记录。
数据种类:文本、图形、图像、音频、视频、学生的档案记录、货物的运输等。
(2)数据库
是长期存储在计算机内、有组织的、可共享的大量数据的集合。
(3)数据库管理系统
位于用户与操作系统之间的一层数据管理软件,是一个大型复杂的软件系统。
(4)数据库系统
是计算机系统中引入数据库后的系统构成。
二、数据库的三级模式
(1)模式(概念模式、逻辑模式)
- 数据库中全体数据的逻辑结构和特征的描述
- 所有用户的公共数据视图,综合了所有用户的需求
一个数据库只有一个模式
(2)外模式(子模式、用户模式)
- 数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
- 数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
(3)内模式(存储模式)
- 是数据物理结构和存储方式的描述
- 是数据在数据库内部的表示方式
- 一个数据库只有一个内模式
三个级别:
与三级模式相对应,数据库系统可以划分为三个抽象级:
(1)用户级数据库:对应于外模式,是用户看到和使用的数据库,又称用户视图。一个数据库可有多个不同的用户视图。
(2)概念级数据库:对应于概念模式,是所有用户视图的最小并集,一个数据库应用系统只有一个DBA视图。
(3)物理级数据库:对应于内模式,是数据库的底层表示,它描述数据的实际存储组织,是最接近于物理存储的,又称为内部视图。
三、E - R 模型
E - R模型是描述概念数据模型。
观点:世界是由一组称为实体的基本对象和这些对象之间的联系构成。
(1)实体:客观存在的并可相互区别的事物。可以是具体的人、事、物或抽象的概念(账户)。
(2)属性:实体所具有的某一特性。一个实体可以由若干个属性来刻画。
属性分类:
- 简单属性和复合属性
- 单值属性和多值属性
- NULL属性
- 派生属性
(3)实体集:具有相同类型和共享相同属性的实体的集合,如学生、课程等。
(4)域:属性的取值范围
(5)实体型:用实体名及其属性名集合来抽象和刻画,同类实体称为实体型
(6)码:唯一标识实体的属性
(7)联系:实体内部的联系和实体之间的联系
两个实体型间联系分为三类:
- 一对一联系
- 一对多联系
- 多对多联系
(8)E - R图的组成元素
数据模型的三要素
- 数据结构
- 数据操作
- 数据的约束条件
四、数据仓库和数据挖掘
是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的(相对稳定的)、随时间不断变化的数据集合。
本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合。
4.1 数据仓库的基本特征
- 数据仓库的数据是面向主题的
- 数据仓库的数据是集成的
- 数据仓库的数据是不可更新的
- 数据仓库的数据是随时间不断变化的
4.2 数据仓库的体系结构
- 数据仓库的后台工具:包括数据抽取、清洗、转换、装载和维护工具。
- 数据仓库服务而起:相当于数据库系统中的DBMS,负责管理数据仓库中数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口(如SQL查询接口)
- OLAP服务器:透明的为前台工具和用户提供多维数据视图;OLAP服务器则必须考虑物理上这些分析数据的存储问题
- 前台工具:包括查询报表工具、多维分析工具、数据挖掘工具和分析结果可视化工具等
4.2 数据挖掘
- 概念:数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道但可能有用的信息和知识的一种新技术
- 目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素
数据挖掘与传统分析方法的区别:
数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识
数据挖掘的应用过程:
(1)确定挖掘对象
(2)准备数据
(3)建立模型
(4)数据挖掘
(5)结果分析
(6)知识应用