ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节,其设计的好坏影响生成数据的质量,直接关系到BI项目的成败。
用ETL工具就可以解决。它的优点有:
● 支持多种异构数据源的连接。(部分)
● 图形化的界面操作十分方便。
● 处理海量数据速度快、流程更清晰等。1. RestCloud
点评:最专业的ETL工具,全面超越kettle的ETL工具
网页:
RestCloud 企业级API混合集成中台www.restcloud.cn2. informatica
点评:专业程度如Datastage旗鼓相当,价格似乎比Datastage便宜。
Informatica PowerCenter 8.6.1 for Win 32Bit
网页:
Enterprise Cloud Data Managementwww.informatica.com3. kettle
点评:业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便。
网页:
开源的比如 - kafka connect - 阿帕奇Airflow https://airflow.apache.org/ -
CloverDX:https://www.cloverdx.com/ -
Talend Open Studio: https://www.talend.com/products/talend-open-studio/