数据挖掘系列之四:数据仓库设计

1. OLAP(联机分析处理)与OLTP(联机事务处理)主要区别

用户和系统的面向性:OLTP面向事务,日常操作;OLAP面向分析,用于决策支持。

数据内容:OLTP当前数据;OLAP历史数据

数据库设计:OLTP使用ER图、面向应用;OLAP使用星形模式或雪花,面向主题。

视图:OLTP是详细的,一般的关系;OLTP汇总的,多维的。

访问模式:OLTP读写操作都有,需要并行控制和恢复机制;OLAP多为读

2. 多维数据模型

数据仓库和OLAP基于多维数据模型。此模型用数据方表示数据。

方体:数据汇总

方体的:根据不同的汇总级别或维的不同子集,构造方体的格。

数据方:方体的格即为一个数据方。数据方由维和度量组成。

原语:立方体定义 (事实表):

define cube <cube_name> [<dimension_list>]:<measure_list>
维定义 ( 维表):
define dimension <dimension_name> as (<attribute_or_subdimension_list>)

3. 多维数据库模式

多维数据模型可以以星形模式、雪花模式、事实星座模式形式存在。

星形模式:(1)一个大的、包含大批数据、不含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。

雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。雪花模式比星形模式的维表更规范,这样减少了冗余,但是可能需要更多的join操作,性能降低。数据仓库设计中,星形模式更多。

事实星座模式(星系模式):多个事实表共享维表。

4. 数据仓库设计

须考虑的四种视图:
-自顶向下视图:选择数据仓库所需的有关信息
-数据源视图:揭示被操作数据库系统捕获、存储、和管理的信息
-数据仓库视图:包括事实表和维表
-商务查询视图:从最终用户的角度透视数据仓库中的数据

典型的数据仓库设计过程
-选取待建模的商务处理, 例如, 订单, 发票, 库存等.
-选取商务处理的粒度, 例如,单个事务、一天的快照等
-选取用于每个事实表记录的, 如,时间、商品、顾客、供应商、仓库、事务类型和状态 等
-选取将安放在事实表中的度量. 典型的度量是可加的数值量, 如dollars_sold和units_sold

参考文献:

[1]数据挖掘:概念与技术


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值