数据仓库设计的问题和重要概念

最新推荐文章于 2021-03-06 11:58:00 发布

cuanjue3715

最新推荐文章于 2021-03-06 11:58:00 发布

阅读量224

点赞数

文章标签： awk shell

1:设计数据仓库重要问题：粒度，分区。基本问题：数据清理。有多种数据分区的标准:(1)时间 (2) 业务范围 (3) 地理位置 (4)组织单位

2:在操作性环境中的档案数据的时间范围称为数据的操作性窗口，一般不长，一个星期到两年。

3:从操作型环境提取数据到数据仓库环境需要集成数据的问题：

(1)编码不一致 (2)单位不一致 (3)字段语义不一致

4:元数据就是关于数据的数据。

5:在数据仓库中，每一个主题域都是以一组相关的表来具体实现的。且每个主体域的数据可以存储在不同的介质上。每个表都有一个时间元素作为关键字，记录都是以某型形式的日期连接到关键字。

6:数据仓库中的数据组织形式：

(1) 堆积结构--&gt轮转综合文件

(2)简单直接文件:操作型数据间隔一定时间的一个快照。--&gt连续文件

7:数据建模分三个层次:高层建模（实体关系图ERD）,中间层建模(DIS),底层建模(物理模型)

物理设计中需要考虑的核心是物理I/O的使用情况。什么是物理I/O?物理I/O就是将数据从外部存储器调入计算机，或者将数据从计算机送到外部存储器。传送以块为单位进行。为什么是核心问题?计算机运算速度以纳秒计，而数据的传输速度以毫秒计。所以设计者的工作是组织好物理数据，以保证执行一次物理I/O能返回最大数量的记录。

数据周期:从操作性环境中的数据发生变化起，到这个变化反映到数据仓库中所用的时间。

8:关系模型是数据仓库的最佳设计基础(数据的间接访问)

9:数据集市(部门级)，适合使用星形连接(数据的直接访问)

10:高粒度级，代表细节程度低；低粒度级，代表细节程度高.

概括为一句话就是：高细低粒，低细高粒

11:轻度综合数据级(数据集市级)

12:ETL工具内估计可能主要是用来创建源到目标的映射，转换规则等。那些复杂的业务逻辑,ETL估计可能是无法实现的。所以，我认为ETL做的工作，侧重于技术层面，涉及到各种技术。比如处理非结构化文本技术等(shell,awk等)。对于处理那些复杂的业务逻辑的能力是有限的。

其实可以这么理解：首先用编程语言编写好实现逻辑，然后在代码外面包一层ETL工具，在ETL工具内配置映射，转换规则等，然后进行抽取，转换，加载工作。

[@more@]

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/24214296/viewspace-1055729/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/24214296/viewspace-1055729/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据仓库设计的问题和重要概念

1:设计数据仓库重要问题：粒度，分区。基本问题：数据清理。有多种数据分区的标准:(1)时间 (2) 业务范围 (3) 地理位置 (4)组织单位2:在操作性环境中的档案数据的时间范围称为数据的操作性窗口，一般不长，一个星期到两年。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。