浅析起始来源数据

How is the system-of-record determined?

如何确定起始来源数据?

答:

这个问题的关键是理解什么是System-of-RecordSystem-of-Record和数据仓库领域内的其他很多概念一样,不同的人对它有不同的定义。在Kimball的体系中,System-of-Record是指最初产生数据的地方,即数据的起始来源。在较大的企业内,数据会被冗余的保存在不同的地方,在数据的迁移过程中,会出现修改、清洗等操作,导致与数据的起始来源产生不同。

起始来源数据对数据仓库的建立有着非常重要的作用,尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大。


理解源系统的本质对于创建DW结构,ETL过程结构等非常关键。各种工具、连接和服务都部分依赖于数据的来源以及输出的数据内容。 在数据仓库设计的最早阶段上,设计者关注两样工作:用户需求的收集和数据源分析。设计者必须将用户需求与现实各种数据源放在一起通盘考虑, 尽可能深入的了解与需求密切相关的数据源,把其作为下一步研究的基础。 通常用户都会说明他们需要有关销售,库存,财务等方面的数据,可是他们并不能详细的说明这些数据的来源与存放在企业的哪个数据库中。 在这一步骤为每个事实表与维表确定来源,收集有关它的信息,是静态的还是动态的,数据是缓慢变化的还是频繁变化的,数据源在何处,数据源所处的平台等,确定ETL的范围;并且确认那些是来自正式的数据源或者是非正式的数据源。 正式的数据源是由业务系统进行支持; 而非正式的数据源,如分析竞争对手时的市场占有调查报告等,这些是不能有现有的业务系统支持, 而是来自于用户的收集与使用的,这些信息往往需要一个获取信息的处理过程,将其收集到数据仓库中.
确定了数据源,我们必须仔细研究每个数据源的内容,可获得性程度等。因为在某个系统中同样一个目标值的数据来源可能会有多个,这样这个过程并不能是一个自动化的过程,更多的是依靠经验,会根据数据量,数据质量,数据内容,数据完整性等方面来确定哪个是我们要使用的数据源,并选择需要的数据内容。在这个阶段选择数据源时必须对业务有深刻的了解,如果想取一个数据,在源表中多个表都存在, 如对于一些大表,在业务系统中为了性能的需要,经常会只保留三个月的交易数据,这样如果我们要分析一个一年以上的数据,这个源表就不能符合我们的需求。 这些都需要IT的信息专家参与,他们对组织中的数据非常熟悉,了解大部分数据源的历史。 通过对所有的数据源进行详细的分析,了解其真实的数据内容。在选定数据源时,在某种情况下,并非可以随处捕捉到数据。这些数据必须要考虑它的其他方式的来源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.什么是逻辑数据映射?它对ETL项目组的作用是什么? 2.在数据仓库项目中,数据探索阶段的主要目的是什么? 3.如何确定起始来源数据? 架构 4.在ETL过程中四个基本的过程分别是什么? 5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点? 6.简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上? 抽取 7.简述异构数据源中的数据抽取技术。 8.从ERP源系统中抽取数据最好的方法是什么? 9.简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。 10.简述出三种变化数据捕获技术及其优缺点。 数据质量 11.数据质量检查的四大类是什么?为每类提供一种实现技术。 12.简述应该在ETL的哪个步骤来实现概况分析? 13.ETL项目中的数据质量部分核心的交付物有那些? 14.如何来量化数据仓库中的数据质量? 建立映射 15.什么是代理键?简述代理键替换管道如何工作。 16.为什么在ETL的过程中需要对日期进行特殊处理? 17.简述对一致性维度的三种基本的交付步骤。 18.简述三种基本事实表,并说明ETL的过程中如何处理它们。 19.简述桥接表是如何将维度表和事实表进行关联的? 20.迟到的数据对事实表和维度表有什么影响?怎样来处理这个问题? 元数据 21.举例说明各种ETL过程中的元数据。 22.简述获取操作型元数据的方法。 23.简述共享业务元数据和技术元数据的方法。 优化/操作 24.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。 25.简述ETL技术支持工作的四个级别的特点。 26.如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。 27.简述如何评估大型ETL数据加载时间。 实时ETL 28.简述在架构实时ETL时的可以选择的架构部件。 29.简述几种不同的实时ETL实现方法以及它们的适用范围。 30.简述实时ETL的一些难点及其实现方法。 ......
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值