前言
基于kettle实现业务表增量同步时,通过shell脚本并发调用遇到的性能问题,项目的背景与情况已经在这篇文章描述了。
文章地址:https://blog.csdn.net/weixin_41561946/article/details/106957890
最初实现方式
1、对于70多张业务表每张表建立一个同步作业,每一个同步作业通过kettle去调用
2、一个脚本shell里放5到10个kettle调度作业
3、通过linux下的crontab每5分中执行一次shell脚本,同时运行的shell有6-8个
4、在oracle数据库编写存储过程,通过job每隔5分钟去调用存储过程生成数据
遇到的问题
1、在每个shell脚本里放到5-10个kettle调度作业顺序执行时, 有时会出现执行完成一个kettle调度作业后,需要等待100秒左右的时间,才会执行一下kettle调试作业,70多张表同步完成超过5分钟
2、频繁创建kettle调度作业进程,导到操作系统不能及时释放资源,报OOM错误
3、kettle作业同步完成后与oracle里的存储过程没有关联起来,即使5分钟内所有最新数据都同步完成,后台程序也不一定能获取到最新记录的字段值。
解决思路和方法
1、通过一个大kettle作业连接多个小作业,一个shell脚本调用一个大kettle作业,减少频繁创建kettle调度作业进程带来的系统消耗。
2、对每个kettle调度作来配置单独的运行内存
3、kettle同步完成后调度oracle里的存储过程,实际调度的一致性
4、将整个kettle同步任务迁移至单独的服务器运行。
总结
1、在一个shell脚本里存放多个kettle调度作业,通过crontab调用shell脚本容易造成操作系统资源不能及时释放。