数据仓库设计的问题和重要概念

1:设计数据仓库重要问题:粒度,分区。基本问题:数据清理。有多种数据分区的标准:(1)时间 (2) 业务范围 (3) 地理位置 (4)组织单位

2:在操作性环境中的档案数据的时间范围称为数据的操作性窗口,一般不长,一个星期到两年。

3:从操作型环境提取数据到数据仓库环境需要集成数据的问题:

(1)编码不一致 (2)单位不一致 (3)字段语义不一致

4:元数据就是关于数据的数据。

5:在数据仓库中,每一个主题域都是以一组相关的表来具体实现的。且每个主体域的数据可以存储在不同的介质上。每个表都有一个时间元素作为关键字,记录都是以某型形式的日期连接到关键字。

6:数据仓库中的数据组织形式:

(1) 堆积结构--&gt轮转综合文件

(2)简单直接文件:操作型数据间隔一定时间的一个快照。--&gt连续文件

7:数据建模分三个层次:高层建模(实体关系图ERD),中间层建模(DIS),底层建模(物理模型)

物理设计中需要考虑的核心是物理I/O的使用情况。什么是物理I/O?物理I/O就是将数据从外部存储器调入计算机,或者将数据从计算机送到外部存储器。传送以块为单位进行。为什么是核心问题?计算机运算速度以纳秒计,而数据的传输速度以毫秒计。所以设计者的工作是组织好物理数据,以保证执行一次物理I/O能返回最大数量的记录。

数据周期:从操作性环境中的数据发生变化起,到这个变化反映到数据仓库中所用的时间。

8:关系模型是数据仓库的最佳设计基础(数据的间接访问)

9:数据集市(部门级),适合使用星形连接(数据的直接访问)

10:高粒度级,代表细节程度低;低粒度级,代表细节程度高.

概括为一句话就是:高细低粒,低细高粒

11:轻度综合数据级(数据集市级)

12:ETL工具内估计可能主要是用来创建源到目标的映射,转换规则等。那些复杂的业务逻辑,ETL估计可能是无法实现的。所以,我认为ETL做的工作,侧重于技术层面,涉及到各种技术。比如处理非结构化文本技术等(shell,awk等)。对于处理那些复杂的业务逻辑的能力是有限的。

其实可以这么理解:首先用编程语言编写好实现逻辑,然后在代码外面包一层ETL工具,在ETL工具内配置映射,转换规则等,然后进行抽取,转换,加载工作。

[@more@]

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24214296/viewspace-1055729/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/24214296/viewspace-1055729/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值