kettle 提交数据量_kettle增量抽取数据--高效抽取方式

在数据汇聚分析项目中,通过Kettle进行数据抽取时遇到速度变慢的问题。优化措施包括调整JVM大小、提交记录数、使用数据库连接池等,但关键在于利用SQL的Merge语句进行主键对比去增量抽取,显著提高效率。创建作业,全量抽取到中间表,然后通过Merge SQL进行更新和插入操作,有效提升了数据处理速度。
摘要由CSDN通过智能技术生成

加入了一个数据汇聚分析展示的项目,其中数据抽取是一个很重要的环节,我接手之后发现kettle抽取速度越来越慢,不知道是服务器不给力还是数据库压力太大什么原因,在线搜索了很多优化方案:

1.调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen或Pan或Spoon脚本(选中kettle图标-->右键-->编辑,修改参数设置);

2、  调整提交(Commit)记录数大小进行优化;

如修改“表输出”组件中的“提交记录数量”参数进行优化,Kettle默认Commit数量为:1000,可以根据数据量大小来设置Commitsize:1000~50000;

3、  调整记录集合里的记录数;

4、尽量使用数据库连接池;

5、可以使用sql来做的一些操作尽量用sql;

Group , merge , stream lookup,split field这些操作都是比较慢的,想办法避免他们.,能用sql就用sql;

6、插入大量数据的时候尽量把索引删掉;

7、尽量避免使用update , delete操作,尤其是update,如果可以把update变成先delete,  后insert;

这些都做了,发现依然没有很大的改善,后来发现是我没有注意第“5”条,下面就来说说具体的操作方式(主要是主键对比去增量抽取):

可以看到日志日期里面完成整个过程只需要95秒,我这张目标表有大概65万的数据库,表中有一百二十多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值