什么是数据同步工具(ETL、ELT)
数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。数据同步是BI项目重要的一个环节。通常情况下,在BI项目中数据同步会花掉整个项目至少1/3的时间,数据同步工具设计的好坏直接关接到BI项目的成败。
关于ETL与ELT的区别
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ETL其实并不是一个新的概念,大家经常使用的像Informatica、Kettle、DataStage等,就是传统的ETL数据同步工具。ETL的理念着重体现在一些数据清洗转化功能,比如空值处理、规范化数据、数据替换、数据验证等等。
在数据湖或数据中台则往往会采用ELT的方式进行数据同步。
ELT是一个比较新潮的概念,相比于ETL,从功能上来说没有差异,只是换了一个顺序。差别在于,如果采用ELT的方案,首先把数据用一种高效的方式从数据源抽取出来,然后在数据仓库中进行数据的转换处理。这种ELT的方式相比于