ETL :提取 转换 加载
大数据的的一个最重要特点是,很多数据是无用的,必须经过一定的处理之后才有加载。而将杂乱无章的数据处理成有用的数据的过程叫ETL。BI系统发展了很多年,形成了很多ETL方法,工具。主要分为以下几类:
第一类:传统ETL,如DATASTAGE,INFORMATIC。这类是最传统的ETL,可以接入多种数据源,用户通过工具自带的界面定制任务和处理流程,复杂业务逻辑可以通过工具支持的脚本语言编程实现。任务和流程定制完成之后,转发成JAVA任务,自动在集群负荷分担。传统ETL存在效率底,对数据的处理支持有限的问题。
第二类:数据库厂商,如ORACLE ODI,充分利用自身的数据库作为高效引擎。数据的转换和抽取都在数据库中完成,任务用SQL实现。通常,为了区分传统的ETL,数据库厂商都称自己为ELT。之所以叫ELT,主要区分是使用数据库作为引擎的时候,加载动作在转换之前。
第三类:是专业的企业任务调度。在这类调度里面,CONTROL-M 2009年被甘特评为领导厂商。另外国内的有 TASKCTL。这种调度,将数据库和DATASTAGE作为执行引擎。支持多种引擎和数据源。
另外如果不用这些成熟的调度工具,自己编码实现的话,SPRING-BATCH是一个好的选择。SPRING-BATCH就是将任务调度框架抽象出来,用户只需要专注业务编码即可。
大数据的的一个最重要特点是,很多数据是无用的,必须经过一定的处理之后才有加载。而将杂乱无章的数据处理成有用的数据的过程叫ETL。BI系统发展了很多年,形成了很多ETL方法,工具。主要分为以下几类:
第一类:传统ETL,如DATASTAGE,INFORMATIC。这类是最传统的ETL,可以接入多种数据源,用户通过工具自带的界面定制任务和处理流程,复杂业务逻辑可以通过工具支持的脚本语言编程实现。任务和流程定制完成之后,转发成JAVA任务,自动在集群负荷分担。传统ETL存在效率底,对数据的处理支持有限的问题。
第二类:数据库厂商,如ORACLE ODI,充分利用自身的数据库作为高效引擎。数据的转换和抽取都在数据库中完成,任务用SQL实现。通常,为了区分传统的ETL,数据库厂商都称自己为ELT。之所以叫ELT,主要区分是使用数据库作为引擎的时候,加载动作在转换之前。
第三类:是专业的企业任务调度。在这类调度里面,CONTROL-M 2009年被甘特评为领导厂商。另外国内的有 TASKCTL。这种调度,将数据库和DATASTAGE作为执行引擎。支持多种引擎和数据源。
另外如果不用这些成熟的调度工具,自己编码实现的话,SPRING-BATCH是一个好的选择。SPRING-BATCH就是将任务调度框架抽象出来,用户只需要专注业务编码即可。