Kettle 数据抽取【Version 6.1】

Abner G

于 2021-08-05 22:12:57 发布

阅读量411

点赞数

分类专栏：工作总结 Kettle 文章标签： etl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Abner_G/article/details/119426066

版权

工作总结同时被 2 个专栏收录

30 篇文章 4 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

背景

需要按一定规则从数据库抽取量比较大的数据。使用ETL工具完成。

简述

Kettle是国外开源的ETL工具，Java编写。后来改名PDI
转换（transformation）和工作（job）的区别：

转换是数据流，工作是步骤流，作业的每个步骤必须等前面的步骤都跑完了，后面的步骤才会执行，而转换会一次性把所有控件启动（一个控件对应一个线程）然后数据流会从第一个控件开始，一条记录一条记录地流向后面的控件。

安装使用

安装

绿色无需安装，下载解压就能使用。

设置系统变量（KETTLE_HOME）

PDI的默认配置文件保存在用户目录下的.kettle目录的kettle.properties文件中（C:\Users\Administrator\ .kettle）

设置KETTLE_HOME环境变量的值是：D:\Program Files\pdi-ce-9.1.0.0-324。重启之后在D:\Program Files\pdi-ce-9.1.0.0-324.kettle目录下可以看到kettle.properties配置文件。

使用

双击 Spoon.bat 启动
在这里插入图片描述
Kettle提供3种资源库，分别是数据库资源库、Pentaho资源库和文件资源库，本文以文件资源库为例。
工具->资源库->连接资源库【CTRL+R】

刷新资源库【CTRL+E】

首先创建一个“工作”，建立一个简单的工作流

在这里插入图片描述
进入转换，进行具体操作

表输入注意点

如果sql中使用变量，替换变量选项一定要勾。
返回数据类型如果有int,double类型数据，转为字符串类型。默认识别可能会丢失精度

在这里插入图片描述

文本文件输出注意点

需求为输出为CSV文件，使用UTF-8编码会造成中文乱码。改为GBK解决中文乱码
字段获取的时候，要点一下最小宽度。不点的情况下，默认识别数据的宽度不确定（如果数据不够宽度以空格填充）这样会造成文件太大。浪费空间。

在这里插入图片描述
按数据量分多个文件导出

循环

设置参数

在这里插入图片描述

接下来使用一个JOB循环

循环job注意点

高级设置要勾选对每个输入行执行一次?

job中接收获取参数

java代码

在这里插入图片描述

java代码注意点

如果要对值做转换，需要一个新属性来接受，不能在原属性覆盖
此处gd_lat—>使用lat_84接收

压缩文件

在这里插入图片描述

压缩文件注意点

压缩文件，如果（高级设置）zip存在的情况下，没有覆盖的功能。所以要在压缩之前加一个删除文件。避免不压缩

邮件控件

在这里插入图片描述

发送邮件，要配合【添加文件到结果文件中】使用

在这里插入图片描述

资源

Kettle 压缩包，数据库驱动jar,坐标转换工具类jar,java代码

Kettle 数据抽取【Version 6.1】-- 20211029更新

新增连接串

配置文件新增
去资源库新增连接

判断表是否存在，分流

在这里插入图片描述

Switch/case 存在BUG

直接使用 Switch/case 不好使
需要配合【transformation executor】组件，具体执行放在转换里。
在这里插入图片描述

SQL脚本

在这里插入图片描述

按字段合并多行数据，不同字段按逗号分隔

在这里插入图片描述

在这里插入图片描述

关联字段合并（类似SQL join操作）

在这里插入图片描述

表输出

在这里插入图片描述

报错 “kettle：The tablename is not defined (empty)”

去掉表输出中的“表分区数据”
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
6
评论
Kettle 数据抽取【Version 6.1】

Kettle 数据抽取【Version 6.1】背景简述安装使用安装设置系统变量（KETTLE_HOME）使用首先创建一个“工作”，建立一个简单的工作流表输入注意点文本文件输出注意点循环设置参数循环job注意点java代码java代码注意点压缩文件压缩文件注意点邮件控件背景需要按一定规则从数据库抽取量比较大的数据。使用ETL工具完成。简述Kettle是国外开源的ETL工具，Java编写。后来改名PDI转换（transformation）和工作（job）的区别：转换是数据流，工作是步骤流，作业的每
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Abner G 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。