数据仓库与数据挖掘

数据仓库与数据挖掘系列文章目录(持续更新…)

第四章 数据仓库与联机分析处理



一、数据仓库基本概念

1.1什么是数据仓库?

数据仓库是一个面向主题的、集成的、时变的、非易失性的用于支持管理者决策过程的数据集合。

1.1.1面向主题

围绕主题组织:如客户、产品、销售。
专注于为决策者建立模型和分析数据。
通过排除在决策支持过程中无用的数据,围绕特定的主题问题提供一个简单且简洁的视图。

1.1.2集成的

①基于集成多个、异构的数据源进行构建

关系数据库、一般文件、联机事务处理记录

②应用数据清理及数据集成技术

确保不同数据源中的命名约定、编码结构、属性度量等方面的一致性
例如,宾馆价格:货币种类、税额、是否含早餐等等

③当数据被移入数据仓库时将会被转换

1.1.3时变的

①数据仓库涵盖的时间范围要显著长于业务操作系统数据

业务操作数据库数据:实时数据
数据仓库数据:从历史角度提供信息(例如,过去的5-10年)

②数据仓库中的每个关键结构

隐式或显式地包括时间元素
但是业务数据库中的关键结构既可包括也可以不包括“时间元素”

1.1.4非易失性的

①独立性

数据仓库将业务环境中的数据转换并在物理上分离存储

②静态数据仓库环境中不发生数据的操作更新

▪ 不需要事务处理、恢复和并发控制机制
▪ 在数据访问中只需要两个操作:数据的初始加载和数据的访问

1.2OLTP与OLAP

OLTP:联机事务处理  DBMS操作 ; 查询事务性处理
OLAP:联机分析处理  数据仓库操作 ; 钻孔、切片、切块...

在这里插入图片描述

1.3为什么要建立一个独立的数据仓库?##

①为了两个系统都有很高的性能

DBMS-目的是OLTP:存取方法、索引、并发控制、恢复
数据仓库-目的是OLAP:复杂的OLAP查询、多维视图、合并统一

②不同的功能和不同的数据

▪ 缺少数据:决策支持需要历史数据,而业务数据库通常不维护这些数据。 
▪ 数据整合:决策支持需要将来自异种数据源的数据统一(聚合、汇总)。
▪ 数据质量:不同的来源通常使用不一致的数据表示、代码和格式,必须加以协调

1.4多层次架构

①顶层:前端客户层

用于知识工人(如经理、主管、分析人员等)直接操作获取知识

②中间层:OLAP服务器

联机分析处理(Online Analytical Processing, OLAP)是数据
仓库系统前端分析服务的分析工具,能快速汇总大量数据并进行
高效查询分析,为分析人员提供决策支持。

③底层:数据仓库服务器

使用一些后端工具和实用程序,对其他外部数据源的数据进行提取
清理、变换、装入和刷新,将高质量的数据更新到数据仓库。

④数据

在这里插入图片描述

1.5三种数据仓库模式

①企业仓库

收集横跨整个组织的所有主体信息

②数据集市

对特定用户群有价值的全组织数据的一个子集
其范围局限于特定的、选定的群体,如营销数据集市:独立与依赖(直接来自仓库)的数据集市

③虚拟仓库

一组关于业务数据库的视图
只有一些可能的摘要视图可能会被具体化

1.6提取、转换和加载(ETL)

①数据抽取(extract)

从多个、异构的和外部来源获得数据

②数据清理

检测数据中的错误,并在可能的情况下纠正它们

③数据转换(transform)

将数据从遗留格式或主机格式转换为仓库格式

④加载(load)

排序、汇总、合并、计算视图、检查完整性,以及建立索引和分区

⑤刷新

将更新从数据源传播到仓库

1.7元数据存储库

元数据是定义数据仓库对象的数据
– 元数据包括以下内容

数据仓库结构的描述:模式、视图、维、分层结构、导出数据的定义、数据集市的位置及内容

操作数据源:数据血统(迁移数据的历史和它使用的变换序列),数据流通(主动的、档案的或者净化的)和管理信息(仓库使用的统计量、错误报告和审计跟踪)

用于汇总的算法

由操作环境到数据仓库的映射

关于系统性能的数据:数据仓库模式、视图和导出数据的定义

商务数据:商务术语和定义、数据拥有者信息、收费策略

总结

提示:这里对文章进行总结:

以上就是今天要讲的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苦练操作系统

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值