对ETL的总结

今天看了几位前辈的ETL文章,以前只是知道,但没有形成自己的东西,或者说没有一个系统的认识。

ETL的特点:一是数据同步,周期性运行,二是数据量大。

1、 ETL工作先后顺序:一般情况下先做调研,然后去看业务数据库,找出一此脏数据, 然后着手开始开发,同时进行脏数的处理,最后形成完整的ETL脚本或者JOB,提交验收决策,最后根据决策进行部署。一般会准备三个环境:开发环境、测试环境和生产环境。要提交各种相关报告。

2、 ETL方法: ETL的实现有多种方法,常用的有三种:一种是借助ETL工具,如Oracle的OWB,datastage,informatic等,这种方法可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高的速度,降低的难度,缺点是效率较低,缺少灵活性。第二种是SQL方式实现,运用SQL的方法优点是灵活,ETL运行效率高,缺点是开发速度慢,编码复杂,对技术要求比较高。第三种是ETL工具和SQL相结合。这种是结合了前面二种的优点,会极大的提高ETL的开发速度和效率。 采用哪种方法主要考虑开发效率、维护方面、性能、学习曲线、人员技能,当然最主要的是客户认可

3、 ETL架构:一般分两步ETL:第一步是数据源到ODS,主要完成脏数据和不完整数据的清洗。第二步是ODS到DW,主要完成数据业务规则转换,计算,聚合等。

4、 数据源的数据质量:一数据格式错误,二数据一致性,三业务逻辑的合理性,是清洗和转换的原因。

5、 数据清洗:清洗的数据有不完整的数据、错误的数据、重复的数据三大类。数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

6、 数据转换:数据转换的任务主要进行不一致的数据转换、数据粒度的转换、一些商务规则的计算和聚集。

7、 转换方法:从数据字段的转换规则可以分为:一、直接映射;二、字段运算;三、参照转换;四、日期转换与运算;五、字符串处理;六、空值处理;七、聚集运算;八、既定取值。从数据源表的操作可以分为:一、大小交;二、大大交;三、站着进来,躺着出去;四、是聚集。

8、 ETL的数据质量:引起数据质量的原因主要有:一、规则描述错误,二、ETL开发错误,三、人为处理错误。

9、 ETL的数据质量保证:保证数据质量的工作:一、开发规范化,二、ETL日志检查,三、数据验证,分为:总量稽查,包括总记录数,所有度量指标的总值、均值等。总量正确说明数据没有丢弃,没有脏数据存在;分量稽查:需要对每个唯独上的分布的每个度量进行查询,是确保多为分析的正确性;稽查自动化;稽查报告。

10、 元数据:主要是指转换规则和转换前后的数据结构。可能还有对形式参数的管理等

[@more@]

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/11289496/viewspace-982397/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/11289496/viewspace-982397/

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值