Kettle基本使用(六) —— 连接 & 统计 & 映射 的使用

一、连接

01.连接_合并记录

合并记录:纵向合并旧数据和新数据,并比对新旧数据的差异,合并记录前先按关键字段进行排序记录

        关键字段:用于定位两表中的同一条记录

        比较字段:两表中需要比较的字段

        标志字段:用于展示两表的比较结果

                identical表示相同的数据

                changed表示变化的数据

                new表示新增的数据

                deleted表示删除的数据

 

 

 

 

 

 

 02.连接_记录关联_笛卡尔输出

记录关联(笛卡尔输出):两表的所有行两两交叉连接

Main step to read:读取的主要步骤,选择任意一表均可

 

 

 

 03.连接_记录集连接

记录集连接:表连接(join),记录集连接前先按连接字段进行排序记录

连接类型:

        INNER内连接

        LEFT OUTER左连接

        RIGHT OUTER右连接

        FULL OUTER全连接

 

 

 

 

 

 04.连接_排序合并

排序合并:纵向合并多表数据并排序,排序合并前先进行排序记录

 

 

 

 

 

二、统计

01.统计_分析查询

分析查询:前后行查询(前后偏移,类似于SQL窗口函数lead和lag),操作前先进行排序记录

类型:前第 N 行(未来或表的下方,lead);后第 N 行(过去或表的上方,lag)

统计前:

统计后:

 

 

 

 

 

 02.统计_分组

分组:分组聚合,操作前先进行排序记录

在内存中分组:分组聚合,操作前先进行排序记录,将数据加载到内存中再分组,其他类似于分组

        名称:聚合字段聚合后的新字段名称

        Subject:聚合字段

        类型:聚合函数

统计后:

 

 

 

 03.统计_单变量统计

单变量统计(Univariate statistics):单个字段的描述统计信息

统计后:

 

 

 04.统计_数据采样

Sample size:样本容量

Random seed:随机种子,重复运行程序,样本保持不变

 

 

 05.统计_样本行

样本行:抽取指定某行的数据

 

 

 06.统计_转换步骤信息统计

转换步骤信息统计:数据转换过程中的读写及持续时间等信息统计

统计后:

 

 

 

 

三、映射

子转换

子转换:经常重复使用的一系列转换操作可封装为子转换,以便在其他转换中调用,从而提高开发效率

映射输入规范:子转换的数据输入

映射输出规范:子转换的数据输出

数据库查询:

         通过输入的数据去查询数据库的数据,纯界面操作,无需编写SQL语句

        左表为数据库的表,右表为输入的表,连接类型为左连接

 

 

 

 数据查询

映射(子转换):用于调用子转换

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值