ETL

ETL是大数据处理的关键步骤,包括全量与增量抽取、数据清洗及加载。全量用于数据量小、不易变化的场景;增量则用于大量数据的高效处理。清洗阶段涉及空值处理、数据验证、格式规范和转码。转化和加载阶段,通过ODS数据更新DW表,并将数据插入目标表。
摘要由CSDN通过智能技术生成

ETL
Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程

1、抽取
全量抽取:适用于数据量小且不容易判断其数据发生改变的诸如关系表,维度表,配置表等
增量抽取:适用于数据量大,为了节省抽取时间而采用的抽取策略
2、清洗
空值处理:将空值替换为特定值或直接过滤掉
验证数据正确性:把不符合业务含义的数据做统一处理
规范数据格式:比如把所有日期都规范成YYYY-MM-DD的格式
数据转码:把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值
数据标准统一:比如在源数据中表示男女的方式有很多种,在抽取的时候直接根据模型中定义的值做转化。
3、转化和加载
转换:用ODS中的增量或者全量数据来刷新DW中的表
加载:每insert数据到一张表都可以称为数据加载

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值