几种不同的ETL工具简单理解

简单介绍对这些ETL工具的理解及应用场景

sqoop:大数据领域常用的轻量级工具,主要用于hive与 mysql/oracle等传统数据库之间的数据传输。即时性比较强,固定脚本拿来即用。但只是用于传输,具体log要重定向打印,开发者自主查看进程。总体来说更偏向于开发者使用。

kettle :图形化ETL工具,相对于sqoop在服务器上写代码操作而言,kettle有自己的应用程序界面,直接在windows就可以操作。这也间接的使其成为,外包服务提供商的首要选择。因为甲方公司只需要了解怎么使用,非技术人员简单的填写就能实现ETL工作,并伴有流程图解,排查错误。且并不需要了解它的原理,代码等。其操作更加简单,可视。

informatic: 

1.总体性能比kettle一些,(kettle是jvm)

2.收费软件 且部署比kettle稍微麻烦一点。毕竟收费了,能用钱解决的都不是问题。也因此传统企业应用更多。互联网行业几乎没人用

3.informatic 支持非结构化数据源

对开发者来说:kettle与informatic 区别:

1.都是图形化简单工具,甚至应用、运维角度来说informatic更简单一些。

2. kettle免费Informatic收费。

3.kettle支持 sql、 java 、regrex 扩展性更强

SSIS:  这个没用过,但据说配合sql server 性能很好。除了在学校以外,目前没有接触到sql server  的应用场景

seatunnel (原waterdrop) :  大数据领域开源产品。内嵌spark,flink ,可以处理流、批数据,也包括 HIVE,MYSQL,ES,HBASE,MONGODB,CLICKHOUSE,ORACLE这些数据库之间的数据传输。可以自定义sourse channel sink ,以及一些filter 方法 供大家使用,也可以结合自身业务二开。

datax:阿里开源,直接操作脚本代码,无界面,开源支持度较kettle少

flume: 大数据领域,主要消费kafka或日志   落入hive、kafka、es、hbase等。几年前大数据都会用,现在应用越老越少,对新技术支持度不够。

logstash&filebeat : 轻量级日志接入工具。可以接入日志 或开发tcp端口供业务写入 落kafka、es、hbase等。安装简单,配置方便。主要用于日志采集

目前只了解这么多,后续有接触的话,持续更新...

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值