一、连接
01.连接_合并记录
合并记录:纵向合并旧数据和新数据,并比对新旧数据的差异,合并记录前先按关键字段进行排序记录
关键字段:用于定位两表中的同一条记录
比较字段:两表中需要比较的字段
标志字段:用于展示两表的比较结果
identical表示相同的数据
changed表示变化的数据
new表示新增的数据
deleted表示删除的数据
02.连接_记录关联_笛卡尔输出
记录关联(笛卡尔输出):两表的所有行两两交叉连接
Main step to read:读取的主要步骤,选择任意一表均可
03.连接_记录集连接
记录集连接:表连接(join),记录集连接前先按连接字段进行排序记录
连接类型:
INNER内连接
LEFT OUTER左连接
RIGHT OUTER右连接
FULL OUTER全连接
04.连接_排序合并
排序合并:纵向合并多表数据并排序,排序合并前先进行排序记录
二、统计
01.统计_分析查询
分析查询:前后行查询(前后偏移,类似于SQL窗口函数lead和lag),操作前先进行排序记录
类型:前第 N 行(未来或表的下方,lead);后第 N 行(过去或表的上方,lag)
统计前:
统计后:
02.统计_分组
分组:分组聚合,操作前先进行排序记录
在内存中分组:分组聚合,操作前先进行排序记录,将数据加载到内存中再分组,其他类似于分组
名称:聚合字段聚合后的新字段名称
Subject:聚合字段
类型:聚合函数
统计后:
03.统计_单变量统计
单变量统计(Univariate statistics):单个字段的描述统计信息
统计后:
04.统计_数据采样
Sample size:样本容量
Random seed:随机种子,重复运行程序,样本保持不变
05.统计_样本行
样本行:抽取指定某行的数据
06.统计_转换步骤信息统计
转换步骤信息统计:数据转换过程中的读写及持续时间等信息统计
统计后:
三、映射
子转换
子转换:经常重复使用的一系列转换操作可封装为子转换,以便在其他转换中调用,从而提高开发效率
映射输入规范:子转换的数据输入
映射输出规范:子转换的数据输出
数据库查询:
通过输入的数据去查询数据库的数据,纯界面操作,无需编写SQL语句
左表为数据库的表,右表为输入的表,连接类型为左连接
数据查询
映射(子转换):用于调用子转换