数仓(四)-抽取-逻辑设计

一、设计逻辑

       1. 有一个规划。这个 ETL 过程必须用逻辑的和文档化的形式表示出来。来详细描述在源系统和数
据仓库之间到底做了些什么。
2. 确定候选的数据源。从最高级别的业务对象出发。
3. 使用数据评估工具分析源系统。源系统中的数据必须在数据质量,完整性
和适合使用方面进行仔细检查,对任何进入数据仓库的数据都必须按照适当
的业务规则进行修正是最好的选择。
4. 接收数据线和业务规则的遍历。
业务规则的两个子类:
4a. 在数据清洗步骤中需要进行改造的数据;
4b. 对分离的数据源的维度实体和可度量的数字事实强制一致性来获得标准
的结构;
5. 充分理解数据仓库数据模型。 ETL 系统的主要目标是用最有
效的方式将数据送给最终用户工具。
6. 验证计算和公式的有效性。与最终用户一起校验任何在数据链中任何指定
的计算。

二、逻辑映射

组成部分:
目标表名称:数据仓库中出现的物理表名称;目标列名称:数据仓库表
中的列名称;
表类型:表示这个表是事实表,维表或者子维表(支节)
SCD(缓慢变化维)类型:对维表,这个部分表示是类型 1,类型 2 或者
类型
3 的缓慢变化维。这个指标对维表中的不同的列可以是不同的。
比如在客户维中,名字可能属于类型 2(保留历史信息),而姓可能属于
类型
1(覆盖)。这些 SCD 类型将在第五章展开详细探讨。
源数据库:源数据所在的数据库实例的名称。这里通常是指连接数据库
所需的连接字符串。如果出现在文件系统中,它也可以是一个文件的名
称。这时,还需要包含这个文件的路径。
源表名称:源数据所在的源表的名称。很多时候需要多个表。这时,只
需将生成目标数据仓库相关表的所有表简单列出即可。
源列名称:生成目标所需的相关列。简单的列出装载目标列需要的所有
列。源列之间的关联在转换部分记录。
转换:源数据与期望的目标格式对应所需的详细操作。这个部分通常用
SQL 或者伪代码来编写。
 三、逻辑映射中的创建

       源系统跟踪报告 :

 主题域:系统的数据集市常用的名称。
 接口名称:源系统支持的交易应用系统的名称。
 业务名称:业务用户通常使用的系统名称。
 优先级:用于确定将来阶段的位置顺序,优先级通常在数据仓库总线矩
阵完成后设置。
 部门/业务用法:使用数据库的主要部门,比如:会计、人力资源等等。
如果有许多部门使用这个应用,指出这个业务用法,比如:库存控制、
客户跟踪等等。
 业务所有者:与使用应用或者数据库的相关问题的联系人或者小组。一
般来说该人或者该小组是这个主题域的数据负责人。
 技术所有者:一般是负责维护数据库的 DBA 或者 IT 项目经理。
 DBMS: 源数据库管理系统的名称。大多数是关系型数据库,比如 ORACLE,
DB2, 或者 SYBASE。也可能是非关系型数据存储如 LOTUS NOTES 或者
VSAM。
 生产服务器/OS:这个列包含数据库运行的服务器的物理名称。
 #日常用户:让你知道组织中有多少操作型人员使用这些数据。这个数字
并不是潜在的数据仓库的最终用户数。
 DB 大小: DBA 可以提供这个信息。知道源数据的记录数有助于你确定
ETL 的优先级和将要付出的工作量。一般来说,越大的数据库的优先级
别越高,因为当在交易系统中查寻大表或者几个表关联查询时性能常常
变得很差。
 DB 复杂度:系统中的表和视图对象的数目。
 #每日交易数:估计出该数字使你对增量加载过程所需要的容量有个认
识。
 注解:通常在研究数据库的时候用来做一般观察报告。可能包括关于未
来数据库版本的注释或者为什么某些实体是或不是一个记录系统的原
因。

   ER  分析源数据:

1.唯一标识和自然键。唯一标识指的是能唯一的确定表中的一行的列。
2.数据类型。
3.表之间的关系。
4.离散关系。
5.关联和列的基数。
 一对一:一对一关系只在超类/子类场景中以及垂直表分割的情况下出
现。一对一关系可以通过查看是否每一个表中该列都是主键来确定。
 一对多:对外键参考来说这是最常见的关系。它很容易确定,注意表中
的非键属性要参考另外一个表的主键。我们称这种非键属性为外键,并
且我们坚持所有的外键都是完备的,也就是说,它是其对应主键的一个
实例。
 多对多:这种关系通常涉及三个表,其中有两个一对多关系。更确切地
说,两个表之间有一个关联表。中心表或者关联表有一个联合主键和两
个外键,一个对应其中一个表的主键,另一个对应另一个表的主键。
通常情况下,源系统的数据字典中没有一致的外键或者参考完整性定义。这
些问题也可能通过简单的列名匹配和更复杂的数据评估来发现。
确保仔细研究了在源、中间集结表以及最终要提交的表中的所有的数据类
型。
       

四、集成异构数据源
1.标识源系统。找出目标维度和事实所在的各种源系统
2.数据评估。源系统的数据分析将揭示不可预知的数
据异常和数据质量问题。这个阶段将发布关于元素在源系统的可靠性报告。
3.创建记录匹配逻辑。设计匹配规则使得分离的系统中的实体可以关联起来。
4.建立生存规则。当 ETL 过程中发生数据冲突时的生存记录,业务规则必须决定当属性重叠时哪一个
系统占有压倒性的地位。
5.建立非键属性的业务规则。
6.加载一致的维度。数据集成过程的最后一环是物理加载一致的维度。

五、抽取数据

1、ODBC访问的数据

        2、主机文件

        3、平面文件

        4、XML,web数据源文件

        5 、ERP系统数据




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值