第一章数据仓库与数据挖掘概述
-
1.1 数据仓库的兴起
-
1.1.1 从数据库到数据仓库 (Database,DB) (Data Warehouse)
-
主要特征
-
(1)数据太多,信息贫乏(Data Rich, Information Poor)。
-
(2)异构环境数据的转换和共享。(不同数据库数据结构不一样,如何整合?)
-
(3)利用数据进行事务处理转变为利用数据支持决策。
-
-
1.数据库用于事务处理
-
数据库存储大量的共享数据,作为数据资源用于管理业务中的事务处理。
-
数据库中存放的数据基本上是保存当前的数据,随着业务的变化再随时更新数据库中的数据。
-
不同的管理业务需要建立不同的数据库。(减少数据冗余,便于综合分析)
-
-
2.数据仓库用于决策分析
-
从DB到DW的演变, 体现以下4点
-
(1)DB用于事务处理,DW用于决策分析。
-
事务处理即增删改查。
-
决策分析要求从大量数据中提取综合信以及利用历史数据的规律得到预测信息。
-
-
(2)数据库保持事务处理的当前状态。 数据仓库既保存过去的数据又保存当前的最据库中的数据。
-
随业务的变化一直更新,保存当前数据。
-
不随时间变化而变化,保留历史数据和当前数据。
-
-
(3)数据仓库的数据是大量数据库的集成。
-
(4)对数据库的操作比较明确,操作数据量少。 对数据仓库操作不明确(通过某种算法),操作数据量大。
-
-
-
3.数据库与数据仓库的对比
-
-
1.1.2 从OLTP到 OLAP
-
1.联机事务处理 (Online Transaction Processing,OLTP
-
概念
-
用户的数据可以立即传送到计算中心进行处理,短时间内给出处理结果。
-
实时系统(Real Time System)
-
-
应用
-
主要用于银行业、航空业等的输入数据和取回交易数据。
-
-
特点
-
事务处理量大
-
并行处理
-
处理内容比较简单且重复率高
-
-
-
-
操作
-
增、删、改、查 数据量不大 多为当前数据
-
数据高度结构化 数据访问路径已知
-
-
-
使用对象
-
操作人员和低层管理人员
-
提供分析力不从心。
-
-
-
-
2.联机分析处理 (Online Analytica Processing,OLAP)
-
概念
-
多维数据库和多维分析
-
关系数据库是二维(平面)数据,多维数据库是空间立体数据。
-
-
-
应用
-
应分析人员的要求快速、灵活地进行天数据量的复杂处理。 以一种直观易懂的形式提供结果。
-
-
基本思想
-
从多方面和多角度,以多维的形式来观察企业的状态和了解企业的变化。
-
-
-
3.OLTP与OLAP的对比
-
-
1.1.3 数据字典与元数据
-
1.数据库的数据字典
-
数据字典是数据库中各类数据描述的集合
-
1)数据项
-
不可再分的数据单位。
-
包括数据项名、含义说明、类型、长度、取值范围、取值含义等。
-
-
2)数据结构
-
反映数据之间的组合关系。
-
-
3)数据流
-
数据结构在系统内传输的路径。
-
-
4)数据存储
-
数据结构保存数据的地方。
-
-
5)处理过程
-
处理过程一般用判定表或判定树来描述。
-
-
-
2.数据仓库的元数据 (Metadata)
-
定义
-
关于数据的数据(Data About Data)
-
数据仓库的核心
-
-
数据仓库的元数据有4类
-
数据仓库中数据的描述(数据仓库字典)
-
关于数据源的元数据
-
关于抽取和转换的元数据
-
关于最终用户使用数据仓库的元数据。
-
-
-
-
1.1.4 数据仓库的定义与特点
-
1.数据仓库的定义
-
面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
-
(对什么决策?)
-
-
是一种管理技术,通过信息管理从而有效决策。
-
-
2. 数据仓库特点
-
面向主题
-
每一个主题基本对应一个宏观的分析领域。(对什么决策?)
-
-
集成的
-
对不同的数据来源进行统一数据结构和编码。
-
-
稳定的
-
大量的历史数据(只进不出)
-
-
随时间变化
-
(长时间)
-
-
数据量很大
-
软、硬件要求较高
-
巨大的硬件平台
-
并行的数据库系统
-
-
-
-
-
1.2 数据挖掘的兴起 (Data Mining,DM)
-
1.2.1 从机器学习到数据挖掘
-
数据挖掘来源于机器学习。
-
机器学习
-
研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。
-
人工智能领域中的重要研究方向。
-
-
知识发现 (Knowledge Dicovery in Database,KDD)
-
从数据中发现有用知识的整个过程。
-
主要算法是归纳学习算法。
-
-
-
1.2.2 数据挖掘含义
-
KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。
-
-
1.2.3 数据挖掘与OLAP的比较
-
1. OLAP的多维分析
-
切片、切块、钻取操作。
-
辅助决策。
-
-
2. 数据挖掘
-
任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。
-
确定一个高价值的客户或可能离开的客户特征。
-
-
-
1.2.4 数据挖掘与统计学
-
应用于数据挖掘的内容
-
(1)常用统计(2)相关分析 (3)回归分析 (4)假设检验(5)聚类分析(6)判别分析 (7) 主成份分析
-
-
比较
-
统计学
-
连续值数据 (如年龄、工资等)
-
定量分析
-
数量信息
-
-
-
-
数据挖掘
-
离散数据 (如职称、病症等)
-
定性分析
-
规则信息
-
-
-
-
-
-
-
1.3 智能技术
-
1.3.1 智能技术简述
-
“随机应变”是智能的典型体现
-
1.人类智能的早期研究
-
亚里士多德:三段论推理的演绎法(从一般规律推出个别现象)
-
哲学家培根:归纳法(从大量现象中归纳出一般规律)
-
数学家莱布尼茨:数理逻辑,形式逻辑符号化
-
数学家弗雷格:命题逻辑和谓词逻辑,丰富逻辑思维
-
数学家图灵:理想计算机的数学模型,图灵机
-
-
2. 人工智能研究的兴起
-
3. 人工智能走向成熟
-
4. 机器学习的兴起
-
感知机模型,具有分类器和学习器的作用,形成了神经网络的第一次高潮。
-
BP反向传播模型,解决了非线性样本问题,从而兴起了神经网络的第二次高潮。
-
-
5.深度学习的兴起与发展
-
6. 小结
-
计算智能(CI)和商务智能(BI)都是人工智能(AI)的分枝。
-
机器学习热门研究的算法
-
深度学习、强化学习、迁移学习
-
-
-
-
1.3.2 数据仓库与商务智能
-
1. 综述
-
商务智能(Business Intelligence,BI)
-
数据仓库是为辅助决策而建立的。
-
基于数据仓库的决策支持系统是商务智能的具体化。
-
-
2. 商业智能辅助制定更好更快的决策
-
(1)信息共享
-
时间的节省、产品质量的提高
-
-
(2)实时反馈分析
-
(3)鼓励用户找出问题的根本原因
-
不断地追问“为什么?为什么?”
-
-
(4)使用主动智能
-
预警机制
-
-
(5)实时智能
-
-
3. 商务智能的分类
-
(1)客户智能
-
客户管理策略
-
-
(2)营销智能
-
提高营销能力
-
-
(3)销售智能
-
制定销售策略
-
-
(4)服务智能
-
合理高效的服务策略
-
-
(5)采购智能
-
(6) 流程管理智能
-
(7)财务智能
-
-
4. 商务智能(BI)与人工智能(AI)的比较
-
相同点:利用知识来解决随机变化问题
-
不同点:知识来源不同,解决问题的方法不同
-
AI是利用人类专家知识或者从机器学习(ML)技术中获取知识(如规则),对符号知识进行推理(搜索与匹配),解决各种不同的问题。
-
BI是利用数据仓库(DW)集成的大量商务数据,通过联机分析处理(OLAP)进行多维数据分析和数据挖掘(DM)获取知识,帮助决策者制定策略,解决市场中变化问题。
-
-
-
-
1.3.3 数据挖掘与人工智能
-
知识发现(Knowledge Discovery in Database,KDD)与数据挖掘(Data Mining)是人工智能、机器学习与数据库技术相结合的产物
-
机器学习和数据挖掘的算法
-
(1)集合论方法。采用了数理逻辑中的归纳法,以及集合的蕴含、相交、分离的关系。
-
(2)信息论方法。采用信息论中的互信息和信道容量公式,选择信息量大的属性作为决策树的根结点。
-
(3)仿生物方法(神经网络与遗传算法等)
-
启发式方法
-
对问题的原理还不清楚的时候,采用简化和模拟的方法,来代替问题的本质
-
-
-
-