前言
本文编写两个kettle常用的用法,方便快速掌握kettle的使用。
1.设置变量增量接入数据
1.1场景描述
数据同步过程中,部分数据量太大,直接执行插入/更新组件,很容易内存溢出,执行任务失败。此类数据变动不大,属于时序数据,不可编辑或删除, 比如日志数据、物联网数据。
1.2步骤
(1)获取user_new表最大值id值,设置为变量maxid
(2)新建转换,获取自定义的maxid变量(数据流过来需要选string类型),查询user表大于变量maxid的数据,使用表输出模块把查询的数据插入到user_new表中。
(3)建立转换任务job
2.获取接口数据增量接入
2.1场景描述
获取接口数据,由于接口限制,每次只能获取一千条数据。
2.2步骤
先获取api接口返回的count总数据条数,每次获取一千条得出页数;根据页数循环生成url地址数据表,通过url地址数据表的api地址,一次次获取接口数据插入本地数据表,最后清空url地址表。
1.获取接口数据页面
(1)使用生成记录组件定义api接口的链接
(2)使用查询组件HTTP client是使用GET的方式提交请求,获取返回的页面内容。Json输入获取接口count的总数据条数。
(3)使用公式组件,count条数/1000获取页数。使用计算器组件计算cell取整数生成字段page,再把字段page设置为变量page2。
2.设置检验字段的值这个条件组件,判断page2变量是否大于0。
3.新建转换url暂存,获取变量page2的值生成字段page,再使用公式控件吧api地址和page值生成字符串,存入url_temp表中。
4.新建转换常数减一,获取page2的值生成字段page,用公式让字段page减一的值赋给page3字段,page3字段的值重新赋给page2变量。
5.新建转换获取数据,获取url_temp表中的api地址,用查询控件获取数据,再使用josn输入控件获取json数据,使用插入/更新控件往表中插入数据。
6.使用SQL脚本组件,把url的数据清空。