kettle 提交数据量_kettle增量抽取数据--高效抽取方式

最新推荐文章于 2023-12-22 16:13:34 发布

weixin_39670267

最新推荐文章于 2023-12-22 16:13:34 发布

阅读量1.6k

点赞数

文章标签： kettle 提交数据量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39670267/article/details/111729589

版权

在数据汇聚分析项目中，通过Kettle进行数据抽取时遇到速度变慢的问题。优化措施包括调整JVM大小、提交记录数、使用数据库连接池等，但关键在于利用SQL的Merge语句进行主键对比去增量抽取，显著提高效率。创建作业，全量抽取到中间表，然后通过Merge SQL进行更新和插入操作，有效提升了数据处理速度。

摘要由CSDN通过智能技术生成

加入了一个数据汇聚分析展示的项目，其中数据抽取是一个很重要的环节，我接手之后发现kettle抽取速度越来越慢，不知道是服务器不给力还是数据库压力太大什么原因，在线搜索了很多优化方案：

1.调整JVM大小进行性能优化，修改Kettle定时任务中的Kitchen或Pan或Spoon脚本(选中kettle图标-->右键-->编辑，修改参数设置)；

2、调整提交(Commit)记录数大小进行优化；

如修改“表输出”组件中的“提交记录数量”参数进行优化，Kettle默认Commit数量为：1000，可以根据数据量大小来设置Commitsize：1000~50000；

3、调整记录集合里的记录数；

4、尽量使用数据库连接池；

5、可以使用sql来做的一些操作尽量用sql；

Group , merge , stream lookup,split field这些操作都是比较慢的，想办法避免他们.，能用sql就用sql；

6、插入大量数据的时候尽量把索引删掉；

7、尽量避免使用update , delete操作，尤其是update,如果可以把update变成先delete, 后insert；

这些都做了，发现依然没有很大的改善，后来发现是我没有注意第“5”条，下面就来说说具体的操作方式(主要是主键对比去增量抽取)：

可以看到日志日期里面完成整个过程只需要95秒，我这张目标表有大概65万的数据库，表中有一百二十多

最低0.47元/天解锁文章

weixin_39670267

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。