大数据ETL工具kettle与sqoop对比分析

sqoop有两个版本:sqoop1和sqoop2,sqoop2功能比sqoop强一些,但sqoop2产品不成熟,不适合生产环境使用,且CDH和Ambari HDP都默认集成sqoop1,所以不考虑sqoop2。

本文仅比较kettle和sqoop1:

对比项KettleSqoop1
适用场景数据ETL,简单或复杂的数据抽取、数据转换、数据清洗、数据过滤、数据同步。
支持丰富的数据源和数据输出形式,适用于多种数据源之间数据同步,大数据清洗转换处理
仅适用于关系型数据库与大数据平台之间数据迁移同步
支持系统Linux、WindowsLinux
学习资源丰富,有中文社区,功能多知识点多一般,因功能少知识量少,学习资料重复率高
部署难度一般,需独立部署,有一些配置简单,在CDH、Ambari HDP添加sqoop服务,可视化界面操作
大数据平台集成不支持CDH、Ambari HDP均支持集成sqoop1.4.7
依赖性独立部署运行,不依赖第三方软件依赖大数据平台CDH或HDP
集群支持支持
使用难度一般,可视化界面操作,入门简单。需要一月左右时间才能深入熟悉和掌握大部分功能简单,只需熟悉sqoop命令
可视化界面支持,可在spoon界面上操作不支持,只能通过后台命令操作
扩展性扩展性很强,可自定义Java代码或sql脚本处理不支持
研发工作量较大一般
定时任务支持,自带定时任务功能较弱,可独立部署web服务由xxl-job等定时任务远程调度执行本身不支持,可借助xxl-job等定时任务远程调度命令脚本执行
增量同步有条件支持,需自定义增量同步策略有条件支持,需自定义增量字段last-value值,只能手工操作执行
数据清洗处理支持不支持
Atlas支持不支持支持
安全性密码加密、访问可授权,不支持kerberos和ranger不支持密码加密,支持kerberos认证,ranger权限管理
性能性能较强,单机同步性能可达到每秒十万条以上千万级以下小数据量性能较差,亿级以上大数据同步性能较好
优点功能强大、支持丰富的数据源和数据输出形式,扩展性强,有可视化图形开发界面,入门容易,性能较强在大数据平台上部署简单,亿级以上大数据同步性能较好
缺点软件包比较大,开发工作量大无界面,只能通过命令行脚本操作,不支持扩展开发,功能少,不支持数据清洗处理
数据源-关系型数据库支持绝大部分关系型数据库支持MySQL、Oracle等主流关系型数据库
数据源-文件支持多种文件格式导入不支持
数据源-非关系型数据库支持多种非关系型数据库不支持
数据源-HTTP接口消息支持不支持
数据源-大数据存储支持仅支持从大数据存储HDFS导出文本文件(可以是hive表数据文件)到关系型数据库
数据源-流支持kafka、JMS、MQTT不支持
数据输出-关系型数据库支持绝大部分关系型数据库支持MySQL、Oracle等主流关系型数据库
数据输出-文件支持多种文件格式导入不支持
数据输出-非关系型数据库支持多种非关系型数据库不支持
数据输出-Web接口消息支持不支持
数据输出-大数据存储支持多种大数据存储支持HDFS、Hive、HBASE、accumulo、hcatalog大数据存储
数据输出-流支持kafka、JMS、MQTT不支持
  • 9
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值