浅析数据探索阶段

What are the primary goals of the data discovery phase of the data warehouse project?

在数据仓库项目中,数据探索阶段的主要目的是什么?

答:

在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data Discovery Phase),另一个是异常数据检测阶段。

数据探索阶段包括以下内容:

1.收集所有的源系统的文档、数据字典等内容。

2.收集源系统的使用情况,如谁在用、每天多少人用、占多少存储空间等内容。

3.判断出数据的起始来源(System-of-Record)。

4.通过数据概况(Data Profiling)来对源系统的数据关系进行分析。

数据探索阶段的主要目的是理解源系统的情况,为后续的数据建模和逻辑数据映射打下坚实的基础。

确定了数据源,我们必须仔细研究每个数据源的内容,可获得性程度等。因为在某个系统中同样一个目标值的数据来源可能会有多个,这样这个过程并不能是一个自动化的过程,更多的是依靠经验,会根据数据量,数据质量,数据内容,数据完整性等方面来确定哪个是我们要使用的数据源,并选择需要的数据内容。在这个阶段选择数据源时必须对业务有深刻的了解,如果想取一个数据,在源表中多个表都存在, 如对于一些大表,在业务系统中为了性能的需要,经常会只保留三个月的交易数据,这样如果我们要分析一个一年以上的数据,这个源表就不能符合我们的需求。 这些都需要IT的信息专家参与,他们对组织中的数据非常熟悉,了解大部分数据源的历史。 通过对所有的数据源进行详细的分析,了解其真实的数据内容。在选定数据源时,在某种情况下,并非可以随处捕捉到数据。这些数据必须要考虑它的其他方式的来源。


在数据仓库设计的最早阶段上,设计者关注两样工作:用户需求的收集和数据源分析。设计者必须将用户需求与现实各种数据源放在一起通盘考虑, 尽可能深入的了解与需求密切相关的数据源,把其作为下一步研究的基础。 通常用户都会说明他们需要有关销售,库存,财务等方面的数据,可是他们并不能详细的说明这些数据的来源与存放在企业的哪个数据库中。 在这一步骤为每个事实表与维表确定来源,收集有关它的信息,是静态的还是动态的,数据是缓慢变化的还是频繁变化的,数据源在何处,数据源所处的平台等,确定ETL的范围;并且确认那些是来自正式的数据源或者是非正式的数据源。 正式的数据源是由业务系统进行支持; 而非正式的数据源,如分析竞争对手时的市场占有调查报告等,这些是不能有现有的业务系统支持, 而是来自于用户的收集与使用的,这些信息往往需要一个获取信息的处理过程,将其收集到数据仓库中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值