数据仓库与数据挖掘系列文章目录(持续更新…)
第四章 数据仓库与联机分析处理
文章目录
一、数据仓库基本概念
1.1什么是数据仓库?
数据仓库是一个面向主题的、集成的、时变的、非易失性的用于支持管理者决策过程的数据集合。
1.1.1面向主题
围绕主题组织:如客户、产品、销售。
专注于为决策者建立模型和分析数据。
通过排除在决策支持过程中无用的数据,围绕特定的主题问题提供一个简单且简洁的视图。
1.1.2集成的
①基于集成多个、异构的数据源进行构建
关系数据库、一般文件、联机事务处理记录
②应用数据清理及数据集成技术
确保不同数据源中的命名约定、编码结构、属性度量等方面的一致性
例如,宾馆价格:货币种类、税额、是否含早餐等等
③当数据被移入数据仓库时将会被转换
1.1.3时变的
①数据仓库涵盖的时间范围要显著长于业务操作系统数据
业务操作数据库数据:实时数据
数据仓库数据:从历史角度提供信息(例如,过去的5-10年)
②数据仓库中的每个关键结构
隐式或显式地包括时间元素
但是业务数据库中的关键结构既可包括也可以不包括“时间元素”
1.1.4非易失性的
①独立性
数据仓库将业务环境中的数据转换并在物理上分离存储
②静态数据仓库环境中不发生数据的操作更新
▪ 不需要事务处理、恢复和并发控制机制
▪ 在数据访问中只需要两个操作:数据的初始加载和数据的访问
1.2OLTP与OLAP
OLTP:联机事务处理 DBMS操作 ; 查询事务性处理
OLAP:联机分析处理 数据仓库操作 ; 钻孔、切片、切块...
1.3为什么要建立一个独立的数据仓库?##
①为了两个系统都有很高的性能
DBMS-目的是OLTP:存取方法、索引、并发控制、恢复
数据仓库-目的是OLAP:复杂的OLAP查询、多维视图、合并统一
②不同的功能和不同的数据
▪ 缺少数据:决策支持需要历史数据,而业务数据库通常不维护这些数据。
▪ 数据整合:决策支持需要将来自异种数据源的数据统一(聚合、汇总)。
▪ 数据质量:不同的来源通常使用不一致的数据表示、代码和格式,必须加以协调
1.4多层次架构
①顶层:前端客户层
用于知识工人(如经理、主管、分析人员等)直接操作获取知识
②中间层:OLAP服务器
联机分析处理(Online Analytical Processing, OLAP)是数据
仓库系统前端分析服务的分析工具,能快速汇总大量数据并进行
高效查询分析,为分析人员提供决策支持。
③底层:数据仓库服务器
使用一些后端工具和实用程序,对其他外部数据源的数据进行提取
清理、变换、装入和刷新,将高质量的数据更新到数据仓库。
④数据
1.5三种数据仓库模式
①企业仓库
收集横跨整个组织的所有主体信息
②数据集市
对特定用户群有价值的全组织数据的一个子集
其范围局限于特定的、选定的群体,如营销数据集市:独立与依赖(直接来自仓库)的数据集市
③虚拟仓库
一组关于业务数据库的视图
只有一些可能的摘要视图可能会被具体化
1.6提取、转换和加载(ETL)
①数据抽取(extract)
从多个、异构的和外部来源获得数据
②数据清理
检测数据中的错误,并在可能的情况下纠正它们
③数据转换(transform)
将数据从遗留格式或主机格式转换为仓库格式
④加载(load)
排序、汇总、合并、计算视图、检查完整性,以及建立索引和分区
⑤刷新
将更新从数据源传播到仓库
1.7元数据存储库
元数据是定义数据仓库对象的数据
– 元数据包括以下内容
数据仓库结构的描述:模式、视图、维、分层结构、导出数据的定义、数据集市的位置及内容
操作数据源:数据血统(迁移数据的历史和它使用的变换序列),数据流通(主动的、档案的或者净化的)和管理信息(仓库使用的统计量、错误报告和审计跟踪)
用于汇总的算法
由操作环境到数据仓库的映射
关于系统性能的数据:数据仓库模式、视图和导出数据的定义
商务数据:商务术语和定义、数据拥有者信息、收费策略
总结
提示:这里对文章进行总结:
以上就是今天要讲的内容。