ETL工具 大全(商业、开源)核心对比

列表如下:

序号

名称

软件性质

数据同步方式

作业调度

1

Informatica(美国)

入华时间2005年

http://www.informatica.com.cn

商业

图形界面

 

支持增量抽取,增量抽取的处理方式,增量加载的处理方式,提供数据更新的时间点或周期

工作流调度,可按时间、事件、参数、指示文件等进行触发,从逻辑设计上,满足企业多任务流程设计。

相当专业的ETL工具。IInformatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。

2

Beeload/BeeDI中国北京

2004年发布V1.0 

http://www.livbee.com

商业

图形界面

全量同步时间戳增量、触发器增量差异比对、CDC增量 

提供图形界面配置

内置工作流调度功能,支持相关作业协同、定时及特定条件的执行。

国产品牌:专注、专业、专一ETL工具产品化的及技术性的原厂商,提供产品使用授权及服务

3

Data stage

在2005年被IBM收购

商业

图形界面

全量同步

时间戳增量

差异比对同步

通常使用第三方调度工具

IBM公司的商业软件,最专业的ETL工具,价格不菲,适合大规模的ETL应用 -使用难度*****

4

Kettle(日本收购2005年)

主要在美国,欧洲,亚洲

http://kettle.pentaho.org/

商业开源

图形界面

全量同步

时间戳增量

差异比对同步

需要借助第三方调度工具控制作业执行时间

Kettle 是一款国外开源的 etl 工具,纯 java 编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

序号

ETL工具名称

软件性质

数据同步方式

作业调度

5

Talend(法国 2005年)

http://www.talend.com/

 

开源

图形界面(但是以 Eclipse 的插件方式提供)

全量同步

增量同步方式需要Java自定义

没有内置调度,需要

写Java自定义逻辑或

使用其它调度工具

Talend (踏蓝) 是第一家针对的数据集成工具市场的 ETL(数据的提取 Extract、传输 Transform、载入Load)开源软件供应商。Talend 以它的技术和商业双重模式为 ETL 服务提供了一个全新的远景。它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。最终,由于Talend 的出现,数据整合方案不再被大公司所独享。

6

Apatar

http://apatar.com/

开源

图形界面

全量同步

增量同步方式需要代码自定义

没有内置调度

Apatar  Java 编写,是一个开源的数据抽取、转换、 装载(ETL)项目。模块化的架构。提供可视化的 Job 设计器与映射工具,支持所有主流数据源,提供灵活的基于 GUI、服务器和嵌入式的部署选项。它具有符合 Unicode 的功能,可用于跨团队集成数据,填充数据仓库与数据市场,在连接到其他系统时在代码少量或没有代码的情况下进行维护。

7

Alooma

商业

图形界面

全量同步

时间戳增量

CDC增量 依赖于数据库是否有对应CDC接口。

需要复杂的配置及维护

通过脚本定义

作业执行时间

 

8

Scriptella

http://scriptella.org/

开源

脚本

完全写脚本处理同步过程

完全写脚本处理调度

Scriptella 是一个开源的 ETL (抽取-转换-加载)工具和一个脚本执行工具,采用 Java 开发。Scriptella 支持跨数据库的 ETL 脚本,并且可以在单个的 ETL 文件中与多个数据源运行。Scriptella 可与任何 JDBC / ODBC 兼容的驱动程序集成,并提供与非 JDBC 数据源和脚本语言的互操作性的接口。它还可以与 Java EE,Spring,JMX,JNDI 和 JavaMail 集成。

序号

ETL工具名称

软件性质

数据同步方式

作业调度

 

 

9

Heka

http://hekad.readthedocs.io/en/v0.10.0/

 

开源

脚本

 

一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。通常用于系统日志分析。需要自定义数据库同步方式。

 

 

来自 Mozilla  Heka 是一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。

 

 

 

 

10

Automation

商业

脚本

依附于Teradata数据库本身的并行处理能力,用SQL语句来做数据转换的工作,其重点是提供对ETL流程的支持,包括前后依赖、执行和监控等

Teradata 调度

提供了一套ETL框架。它没有将注意力放在如何处理“转换”这个环节上,而是利用Teradata数据库本身的并行处理能力,用SQL语句来做数据转换的工作,其重点是提供对ETL流程的支持,包括前后依赖、执行和监控等

其实应该叫做ELT,即装载是在转换之前的。的确,如果依赖数据库的能力去处理转换,恐怕只能是ELT,因为转换只能在数据库内部进行。从这个角度看,Automation对数据库的依赖不小,似乎是一种不灵活的设计。也正是这个原因,考虑它的成本就不单单是ETL产品的成本了。

 

 

 

11

 

symmetricds

 

开源

按数据量和服务器收费

 

触发器方式

有锁表问题

 

 

——————

序号

ETL工具名称

软件性质

数据同步方式

作业调度

12

Apache Camel

http://camel.apache.org/

 

Apache Camel 是一个非常强大的基于规则的路由以及媒介引擎,该引擎提供了一个基于 POJO 的企业应用模式(Enterprise Integration Patterns)的实现,你可以采用其异常强大且十分易用的 API (可以说是一种Java 的领域定义语言 Domain Specific Language)来配置其路由或者中介的规则。 通过这种领域定义语言,你可以在你的 IDE 中用简单的 Java Code 就可以写出一个类型安全并具有一定智能的规则描述文件。

 

 

 

 

 

13

Apache Kafka

https://kafka.apache.org/

 

 

提供一个通道,不存储数据

 

Apache Kafka 是一个开源的消息系统,用 Scala 和 Java 写成。该项目为处理实时数据提供了一个统一、高通量、低延时的平台。有如下特性:

  • 通过 O(1) 的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
  • 高吞吐量:即使是非常普通的硬件 kafka 也可以支持每秒数十万的消息。
  • 支持通过 kafka 服务器和消费机集群来分区消息。
  • 支持 Hadoop 并行数据加载。

 

14

Inaplex Inaport(主要在英国)

没有GUI

 

 

需要 .net 2.0没有使用什么优化技术。因为只处理特定数据,所以比较容易进行数据清洗。

 

 

 

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值