kettle优化抽取数据速度_Kettle性能优化

本文探讨了Kettle性能优化的各种方法,包括调整JVM内存大小、优化Commit记录数、调整RowSet大小、并发处理数及使用数据库连接池等。同时,强调了索引的正确使用和SQL优化在数据抽取过程中的重要性。
摘要由CSDN通过智能技术生成

Kettle性能优化是一个系统工程,不仅涉及工具本身的优化,更涉及ETL工具之外的诸多因素,比如,ETL要读取数据库,那么目标DMBS的性能,SQL语句,网络等相关因素都影响到执行效率。根据Kettle对数据ETL的过程性能调优,主要取决于三个因素:上游渠道,工具的大小与数量,下游渠道。

一 Kettle调优

调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen或Pan或Spoon脚本。

Kettle是Java做的,尽量用大一点的内存参数启动Kettle;

调整提交(Commit)记录数大小进行优化(尽量提高批处理的commit size)

如修改“表输出”组件中的“提交记录数量”参数进行优化,Kettle默认Commit数量为:1000,可以根据数据量大小来设置Commitsize:1000~50000。

clipboard.png

调整记录集合里的记录数(RowSet)

RowSet是两个步骤之间的缓存.

性能调优的关键是如何找到性能瓶颈:一个重要的方法就是观察RowSet.如下图所示,当左边的in大于右边的out的位置时,很可能就是性能瓶颈的位置.(也可以通过单个执行最长的步骤来确定性能瓶颈.)

clipboard.png

通过点击转换空白处,可以调整rowset的大小.

clipboard.png

调整之后,执行效果如下:<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值