kettle调优总结

最新推荐文章于 2024-04-28 08:00:00 发布

小哪吒的BD

最新推荐文章于 2024-04-28 08:00:00 发布

阅读量980

点赞数 1

分类专栏：大数据 kettle 文章标签：大数据

本文链接：https://blog.csdn.net/mr_yang888/article/details/105908886

版权

56 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

前言
大家好，我是DJ丶小哪吒，我又来跟你们分享知识了。对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与他人知识共享。由于水平有限。博客中难免会有一些错误。如有纰漏之处，欢迎大家在留言区指正。小编也会及时改正。

DJ丶小哪吒又来与各位分享知识了。今天小编需要分享的是关于kettle的优化。各位，注意收藏哦。不要错过哦。这是企业里大牛才具备的知识哦。一定不要错过。---- 曾经有一份真诚的加薪机会摆在你面前。你一定要珍惜。不要等到失去才追悔莫及。

1、调整JVM大小进行性能优化，修改Kettle根目录下的Spoon脚本。

在这里插入图片描述

参数参考：
**-Xmx2048m：**设置JVM最大可用内存为2048M。

**-Xms1024m：**设置JVM促使内存为1024m。此值可以设置与-Xmx相同，以避免每次垃圾回收完成后JVM重新分配内存。

**-Xmn2g：**设置年轻代大小为2G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。持久代一般固定大小为64m，所以增大年轻代后，将会减小年老代大小。此值对系统性能影响较大，Sun官方推荐配置为整个堆的3/8。

**-Xss128k：**设置每个线程的堆栈大小。JDK5.0以后每个线程堆栈大小为1M，以前每个线程堆栈大小为256K。更具应用的线程所需内存大小进行调整。在相同物理内存下，减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的，不能无限生成，经验值在3000~5000左右。

2、调整提交（Commit）记录数大小进行优化，Kettle默认Commit数量为：1000，可以根据数据量大小来设置Commitsize：1000~50000

3、尽量使用数据库连接池；

4、尽量提高批处理的commit size；

5、尽量使用缓存，缓存尽量大一些（主要是文本文件和数据流）；

6、Kettle是Java做的，尽量用大一点的内存参数启动Kettle；

7、可以使用sql来做的一些操作尽量用sql；

Group , merge , stream lookup,split field这些操作都是比较慢的，想办法避免他们.，能用sql就用sql；

8、插入大量数据的时候尽量把索引删掉；

9、尽量避免使用update , delete操作，尤其是update,如果可以把update变成先delete, 后insert；

10、能使用truncate table的时候，就不要使用deleteall row这种类似sql合理的分区，如果删除操作是基于某一个分区的，就不要使用delete row这种方式（不管是deletesql还是delete步骤）,直接把分区drop掉，再重新创建；

11、尽量缩小输入的数据集的大小（增量更新也是为了这个目的）；

12、尽量使用数据库原生的方式装载文本文件(Oracle的sqlloader, mysql的bulk loader步骤)。

好了，以上内容就到这里了。你学到了吗。欢迎路过的朋友关注小编哦。各位朋友关注点赞是小编坚持下去的动力。小编会继续为大家分享更多的知识哦~~~。

我是DJ丶小哪吒。是一名互联网行业的工具人，小编的座右铭：“我不生产代码，我只做代码的搬运工”…哈哈哈，我们下期见哦，Bye~

你要相信，一切都是最好的安排

关注