现阶段需要做数据库同步工作,目前调研了两个工具datax和kettle
目前虽然环境使用的是kettle+jenkins调度平台方案,但是多多少少会有一些不太令人满意的地方,但应该算是满足大部分需求了,先暂时这样实现
这两者各有优缺点,基本的就不总结了。现在说说一些关键点:
基本方面:
1.datax适合做数据同步工作;kettle适合数据清洗,转换工作
目前成型的可视化界面,datax推荐datax web,kettle后期维护用的界面推荐jenkins/kettle-manager简单
2.datax对于数据库压力比较小,全量读取速度优于kettle
3.对于一些方案的可行性,小数据量的选择全量对比,10w数据量大概3s完成插入更新全量抽取过程,还是比较快的。小数据量的情况下差别不大
4.目前生产可行方案可以选择datax+datax web/kettle
5.具体一些方案https://blog.csdn.net/inthat/article/details/84146346(虽然是datax的,但是kettle也适用)
6.日志方案是对于大量数据的最优选择,mysql用maxwell抓取日志或者上边提供的方案,oracle用ogg,sqlserver目前不清楚需要再找
7.保证kettle后期稳定的情况下用windows自带的定时任务或者Linux中用crontab,不过后续的jenkins完全能胜任
8.部署kettle到服务器上有可能提示少包的问题(具体部署步骤https://www.jianshu.com/p/fa398f104e5d 或者 https://www.cnbl

本文主要介绍了在数据库同步工作中使用的Datax和Kettle工具。Datax适合数据同步,对数据库压力小,而Kettle擅长数据清洗和转换。文章提到了Datax Web和Kettle Manager作为可视化界面,以及在不同场景下如何选择合适的工具。此外,还讨论了日志方案(如Maxwell和OGG)以及部署Jenkins、Docker和调度平台的技巧和注意事项。
最低0.47元/天 解锁文章
6394

被折叠的 条评论
为什么被折叠?



