ETL
Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程
1、抽取
全量抽取:适用于数据量小且不容易判断其数据发生改变的诸如关系表,维度表,配置表等
增量抽取:适用于数据量大,为了节省抽取时间而采用的抽取策略
2、清洗
空值处理:将空值替换为特定值或直接过滤掉
验证数据正确性:把不符合业务含义的数据做统一处理
规范数据格式:比如把所有日期都规范成YYYY-MM-DD的格式
数据转码:把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值
数据标准统一:比如在源数据中表示男女的方式有很多种,在抽取的时候直接根据模型中定义的值做转化。
3、转化和加载
转换:用ODS中的增量或者全量数据来刷新DW中的表
加载:每insert数据到一张表都可以称为数据加载