简单介绍对这些ETL工具的理解及应用场景
sqoop:大数据领域常用的轻量级工具,主要用于hive与 mysql/oracle等传统数据库之间的数据传输。即时性比较强,固定脚本拿来即用。但只是用于传输,具体log要重定向打印,开发者自主查看进程。总体来说更偏向于开发者使用。
kettle :图形化ETL工具,相对于sqoop在服务器上写代码操作而言,kettle有自己的应用程序界面,直接在windows就可以操作。这也间接的使其成为,外包服务提供商的首要选择。因为甲方公司只需要了解怎么使用,非技术人员简单的填写就能实现ETL工作,并伴有流程图解,排查错误。且并不需要了解它的原理,代码等。其操作更加简单,可视。
informatic:
1.总体性能比kettle好一些,(kettle是jvm)
2.收费软件 且部署比kettle稍微麻烦一点。毕竟收费了,能用钱解决的都不是问题。也因此传统企业应用更多。互联网行业几乎没人用
3.informatic 支持非结构化数据源
对开发者来说:kettle与informatic 区别:
1.都是图形化简单工具,甚至应用、运维角度来说informatic更简单一些。
2. kettle免费Informatic收费。
3.kettle支持 sql、 java 、regrex 扩展性更强
SSIS: 这个没用过,但据说配合sql server 性能很好。除了在学校以外,目前没有接触到sql server 的应用场景
seatunnel (原waterdrop) : 大数据领域开源产品。内嵌spark,flink ,可以处理流、批数据,也包括 HIVE,MYSQL,ES,HBASE,MONGODB,CLICKHOUSE,ORACLE这些数据库之间的数据传输。可以自定义sourse channel sink ,以及一些filter 方法 供大家使用,也可以结合自身业务二开。
datax:阿里开源,直接操作脚本代码,无界面,开源支持度较kettle少
flume: 大数据领域,主要消费kafka或日志 落入hive、kafka、es、hbase等。几年前大数据都会用,现在应用越老越少,对新技术支持度不够。
logstash&filebeat : 轻量级日志接入工具。可以接入日志 或开发tcp端口供业务写入 落kafka、es、hbase等。安装简单,配置方便。主要用于日志采集
目前只了解这么多,后续有接触的话,持续更新...