etl系统是数仓建设中很重要得一块,它扮演搬运和加工两个角色
搬运:数据仓库是一个中央存储库,它的数据来源于诸多的源系统,以制造业为例,涉及的系统有:MES、ERP、CRM、PLM、HR、OA等,搬运也有两种方式:pull和push
加工:搬运来的数据五花八门,格式不一,如果要使用,就要做规范化处理,常见的处理:缺失数据的补齐,数据格式的统一,数据维度的映射,数据的拆分、数据的整合,涉及到数据集成的策略:是全量抽取覆盖,或者增量抽取,对于变化的历史数据是怎么处理,是直接覆盖,还是保留,增加新的内容,对于源端删除数据的处理等等