ETL策略

本文回顾了ETL在数据仓库平台中的演变历程,从早期的手动操作到自动化的ETL工具,如datastage和informatica,以及ELT工具ODI的兴起。讨论了初始化时的全量同步策略和后续的删除重载方法,强调了数据处理中的映射、组合和拆分过程。
摘要由CSDN通过智能技术生成

数据仓库平台,ETL是很重要一环,看ETL的发展史,最初使用表格,人工从系统下载,在excel匹配,然后加载到数据仓库平台,到后来开始出现ETL工具,大概分为两个派别,以ETL架构的datastage,informatica,以ELT为代表的ODI,再到后来的批处理方式,SQL编码方式,但是其本质还是抽取数据,处理,再加载到目标平台,常用的方式:

1.初始化:当我们建立数仓平台时候,一开始会涉及到同步历史数据问题,那么就有两种 策略:

  • 全量同步明细数据:把历史数据,每条明细记录抽取到目标平台
  • 同步最新的YTD数据:忽略明细,只同步汇总后的数据

2.后续加载策略:

  • 全删重新插入
  • 插入新增数

3.数据处理过程

  • 映射
  • 组合
  • 拆分
  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值