1、从数据库到数据仓库
蜘蛛网问题
事务型系统和分析型系统的分离
数据分析的结果缺乏可靠性
抽取数据的内容不同
抽取数据的时间不同
引用外部信息的不同
分析程序的差异
数据处理的效率很低
异构环境
全局范围的查询和报表非常不易
每个新的企业报表总是花费同前一张差不多的代价
难以将数据转化成信息
蜘蛛网式的结构中数据缺乏集成性,对综合信息需求的支持不充分
事务型系统和分析型系统的分离
数据处理分为:事务型处理和分析型处理
事务型处理:以传统的数据库为中心进行企业的日常业务处理
分析型处理:以数据仓库为中心分析数据背后的关联和规律,为企业的决策提供可靠有效的依据
事务型系统和分析型系统的不同:
使用人员: 企业具体操作人员 企业的中高层管理者,或者数据分析工程师
处理的数据:企业业务的细节信息 企业的宏观信息而非具体细节
目标: 实现企业的业务运营 为企业的决策者提供信息支持
什么是数据仓库
数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持经营管理中决策制定过程
1、面向主题
数据库:面向应用进行数据组织
数据仓库:面向主题进行数据组织
2、集成
原有数据库系统记录的是业务流水,不适合分析,进入数据仓库前,需要进行综合、计算,抛弃不需要的数据项,增加一些可能涉及的外部数据
数据仓库每一主题对应的源数据在源分散数据库中有许多重复或不一致之处,必须全局统一,消除不一致和错误
集成是数据仓库建设中最关键,也是最复杂的一步
3、稳定性
对于决策分析,历史数据相当重要,许多分析方法必须以大量的历史数据为依托
数据仓库中,数据一旦写入就不再变化,最终用户只能通过分析工具进行查询和分析,而不能修改
对数据查询效率、查询界面的友好、数据的表示提出了更高的要求
4、随时间而变化
数据仓库的数据批量载入、稳定,因此数据总是拥有时间维度
数据仓库实际是记录了系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程
数据批量载入的周期实际上决定了动画间隔的时间,数据提取的周期短,则动画的速度快
数据仓库内的数据时限在5~10年,数据的键码包含时间项,标明数据的历史时期,适合DSS进行时间趋势分析
5、数据仓库的数据量很大
6、数据仓库软、硬件要求较高
需要一个巨大的硬件平台,需要一个并行的数据库系统 NCR Teradata
数据仓库的体系结构
数据仓库系统 = ETL + 数据存储 +OLAP +客户端
ETL:
进行数据的抽取、转换和“净化提炼”处理
对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据
数据抽取(data extract)、数据转换(data transform)、数据清洗(data cleaning)、数据装载(data loading)
ETL工具:支持数据的“净化提炼”、数据加工、自动运行,支持多种数据源
数据仓库存储:
用于存放数据仓库数据和元数据的存储空间
数据存储方式有3种:多维数据库、关系型数据库、前两种存储方式的结合
数据仓库数据数据一部分来自业务系统,一部分是根据需要增加的冗余信息
元数据:提供了有关数据的环境,用于构造、维持、管理和使用数据仓库
管理元数据:设计人员和管理人员使用,执行数据仓库开发和管理任务
用户元数据:用户使用
数据集市:
面向某个部门或某些主题
从属的数据集市(数据仓库子集)
独立的数据集市(部门级数据仓库)
OLAP:
多维分析操作:切片、切块、钻取、旋转
数据组织方式:MOLAP、ROLAP
数据仓库的数据组织结构:
当前细节级、轻度综合级、高度综合级、早期细节级————元数据
数据的综合、数据的导出
数据粒度:
综合程度:对大粒度访问更多
抽样率
深度影响数据量和回答的查询类型
数据量大小和查询的详细程度权衡
数据分割:
将数据分散到各自的物理单元中以便能够独立处理,提高数据处理的效率
分割方法可以选择时间、地点、业务领域来划分、也可以是其组合
按时间分割,数据分布均匀,最常用
数据仓库的数据组织形式:
简单堆积文件:需要许多存储空间,无细节丢失
定期综合文件:非常紧凑,一些细节丢失、提取越久的数据越不详细
连续文件:依据直接文件生成,增加时间序列
数据追加:
数据追加只增加在上次数据输入后业务数据库中变化了的数据;需要“捕获”数据变化
时标法:需修改业务应用程序
前后快照比较法:成本高
DELTA文件法:需修改业务应用程序
日志文件法:数据库服务器系统日志
数据清理:
从操作环境进入分析型环境
从细节数据转换为综合数据
从高速磁盘转移到低速存储介质
数据失去实际意义,被清除