数据仓库—stg层_ETL与数据仓库

数据仓库的ETL(抽取、转换、加载)流程包括全量和增量抽取,如触发器和时间戳方法。ETL工具有Powercenter、Apache Kafka等。数据仓库具有面向主题、集成、不可修改和随时间变化的特点。实现过程涉及数据采集、STG缓冲区、ODS原子区、主题、量度、粒度和维度建模。维度建模包括星形和雪花模型,适用于不同业务场景。数据集市则根据业务分支定制分析。
摘要由CSDN通过智能技术生成

首先我们说说什么是ETL,英文Extract-Transform-Load,用来描述将数据从源端经过抽取,转换,加载至目的端得过程,ETL常用于再数据仓库,但其对象并不限于数据仓库。

ETL主要得环节为数据抽取,数据转换,数据加载,在抽取过程中有几种方式:全量抽取和增量抽取。ETL

全量抽取:将数据表或视图完全从源库抽取出来,转换成ETL工具可识别的格式。

增量抽取:抽取自上次抽取结果变化得数据,包括增加或修改,因此捕获数据变化尤为关键,要准确性和高效性,一般捕获数据变化有几种方式:

1) 触发器:一般建立新增,修改,删除三个触发器,当触发器检测到对应的库表操作时,抽取线程从临时表抽取数据。

2)时间戳:一种基于快照比较得变化数据捕捉方式,源表增加一个时间字段,更新数据时同时更新时间戳,这样在统计数据做对比时,可以根据系统时间与时间戳字段抽取数据做对比。

ETL工具:Powercenter,Apache Camel,Apache Kafka,Heka,Kettle

数据仓库更多的是对管理决策过程的支持,主要表现为四个特点:

1.面向主题:更多的是针对一个明确定义主题,保留与其相关的数据,摒弃掉不相关得数据。

2.集成的:将不同的数据源集成到一个数据源,做统一的ETL处理。

3.不可修改的:数据装载以后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值