Kettle 初学组件

最新推荐文章于 2022-10-26 19:50:10 发布

锐桑偶尔滴捞

最新推荐文章于 2022-10-26 19:50:10 发布

阅读量535

点赞数

分类专栏： kettle 文章标签： etl工程师

本文链接：https://blog.csdn.net/m0_51319918/article/details/125768740

版权

kettle 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

spoon软件说明

1：lib目录存放驱动

:2：excel：07年之前是xls ，07之后是xlsx格式最好选择0

3：使用之前要设置内存，在spoon.bat里面编辑

spoon组件

生成记录：生成静态记录比如1000条相同的记录
json格式：$. ---------------当前下面的内容写在路径里

注：组件中的数据称之为流数据，在使用中说的流有关的就是你组件中的列或者数据

concatfields：列的值的拼接

值映射：通过映射替换值；可以在这里设置默认值

增加常量：增加一列确定值

增加序列：也是增加一列是生成像123这样的列

字段选择：改变列名称或者类型也可以删除某一列；可以选择从表输入来的字段

自定义常量数据：定义新的常量
定义变量一般使用鼠标右键在转换里面定义变量

删除：删除某一列
计算器：进行字段计算
字符串替换：替换相应的字符串
字符串剪切：剪切字符串
字符串操作：删除空格或者大小写转换
去除重复记录：去除重复行

排序记录：排序

唯一行（哈希值）：删除重复行 ==排序+去除重复记录，但是原理不同，这个效率高一些
拆分字段：字段拆分
列拆分为多行：把某一列按照分隔符分割
列转行：把列的值转变为字段名，但是列转行之前需要>排序记录
行转列：字段名变为一列，其余值变为另一列
行扁平化：把同一组的数据变为一行数据0，需要保证每一个分组行的条数是相同的
替换null值：替换空值
写日志：debug的时候用

switch-case：

case when相似  ----一对多

–

过滤记录

相当于数据库中的select，但是一般只有把有or的写进去，比较简单的select在表输入中的sql内就可以实现

空操作：不执行任何操作
中止：程序停下来数据库查询：相当于数据库操作的左连接
数据库连接：可以把两个不同数据库数据进行传递，跨两个不同数据库
流查询：把数据提前加载到内存，只能进行等值查询 ----lookup：从哪里查
合并连接：将旧数据和新数据进行匹配，比较等 || 注：新旧数据顺序不能变，列名不能变
关键字段：（一般为ID）用来查看是否为同一个字段
数据字段：观看哪些发生变化的字段
记录关联（笛卡尔积）：笛卡尔积

记录集连接（重点）

记录集连接之前必须进行排序

首先进行排序连接字段：一般为ID（不要添加其他字段）

左右连接，内连接，外连接
分组：分组前进行排序 ----完全是group by       
	注：这个组件我没使用过，截止现在

映射

映射子转换:之前的操作是一个转换，把他们看成一个逻辑||    ----可以把代码进行重复使用，很方便
映射输入规范：相当于用什么条件输入数据
映射输出规范：输出所有列，不做任何处理

执行sql脚本：能够对数据进行更新

作业

作业跳：
	1：无条件执行 || 蓝色连接线，有一个锁的图标
	2：上一个为真下一个执行 || 绿色连接线，对钩号
	3：上一个为假下一个执行 || 红色停止线

参数的使用

1：全局参数：需要重启才能生效 || 在kettle.properties文件中
2：局部参数：只能在后续步骤中使用
使用方式：	%%变量名%%
			${变量名}
			sql使用变量：“是否替换变量”勾选上

常量传递

	自定义常量，sql语句中用？替换 || 勾选 “从步骤中插入数据”

转换命名参数：鼠标右键，新建转换参数就好啦，${参数}