spoon软件说明
1:lib目录存放驱动
:2:excel:07年之前是xls ,07之后是xlsx格式最好选择0
3:使用之前要设置内存,在spoon.bat里面编辑
spoon组件
生成记录:生成静态记录 比如1000条相同的记录
json格式:$. ---------------当前下面的内容 写在路径里
注:组件中的数据称之为流数据,在使用中说的流有关的就是你组件中的列或者数据
concatfields:列的值的拼接
值映射:通过映射替换值;可以在这里设置默认值
增加常量:增加一列确定值
增加序列:也是增加一列是生成像123这样的列
字段选择:改变列名称或者类型 也可以删除某一列 ;可以选择从表输入来的字段
自定义常量数据:定义新的常量
定义变量一般使用鼠标右键在转换里面定义变量
删除:删除某一列
计算器:进行字段计算
字符串替换:替换相应的字符串
字符串剪切:剪切字符串
字符串操作:删除空格或者大小写转换
去除重复记录:去除重复行
排序记录:排序
唯一行(哈希值):删除重复行 ==排序+去除重复记录,但是原理不同,这个效率高一些
拆分字段:字段拆分
列拆分为多行:把某一列按照分隔符分割
列转行:把列的值转变为字段名,但是列转行之前需要>排序记录
行转列:字段名变为一列,其余值变为另一列
行扁平化:把同一组的数据变为一行数据0,需要保证每一个分组行的条数是相同的
替换null值:替换空值
写日志:debug的时候用
switch-case:
case when相似 ----一对多
–
过滤记录
相当于数据库中的select,但是一般只有把有or的写进去,比较简单的select在表输入中的sql内就可以实现
空操作:不执行任何操作
中止:程序停下来数据库查询:相当于数据库操作的左连接
数据库连接:可以把两个不同数据库数据进行传递,跨两个不同数据库
流查询:把数据提前加载到内存,只能进行等值查询 ----lookup:从哪里查
合并连接:将旧数据和新数据进行匹配,比较等 || 注:新旧数据顺序不能变,列名不能变
关键字段:(一般为ID)用来查看是否为同一个字段
数据字段:观看哪些发生变化的字段
记录关联(笛卡尔积):笛卡尔积
记录集连接(重点)
记录集连接之前必须进行排序
首先进行排序连接字段:一般为ID(不要添加其他字段)
左右连接,内连接,外连接
分组:分组前进行排序 ----完全是group by
注:这个组件我没使用过,截止现在
映射
映射子转换:之前的操作是一个转换,把他们看成一个逻辑|| ----可以把代码进行重复使用,很方便
映射输入规范:相当于用什么条件输入数据
映射输出规范:输出所有列,不做任何处理
执行sql脚本:能够对数据进行更新
作业
作业跳:
1:无条件执行 || 蓝色连接线,有一个锁的图标
2:上一个为真下一个执行 || 绿色连接线,对钩号
3:上一个为假下一个执行 || 红色停止线
参数的使用
1:全局参数:需要重启才能生效 || 在kettle.properties文件中
2:局部参数:只能在后续步骤中使用
使用方式: %%变量名%%
${变量名}
sql使用变量:“是否替换变量”勾选上
常量传递
自定义常量,sql语句中用?替换 || 勾选 “从步骤中插入数据”
转换命名参数:鼠标右键 ,新建转换参数就好啦,${参数}