19 表输出
表输出就是把数据写入到指定的表!
如果表不存在,可以动态的创建,也可以手动指定要插入的数据库字段
20 更新
更新就是把数据库已经存在的记录与数据流里面的记录进行对比,如果不同就进行更新
注意:如果记录不存在,就会出现错误
21 插入更新
插入更新就是吧数据库已经存在的记录与数据流里面的记录做对比,如果不同就进行更新。如果记录不存在,就会插入数据
22 删除
1.自定义常量数据
自定义常量数据就是生成Key-value形式的常量数据
2.删除
删除就是删除数据库表中指定条件的数据
转换章节
23 Concat fields
-
转换
转换就是ETL中的Transform:清洗,转换。
转换在ETL中花费时间最长,一般占据了2/3的时间 -
Concat fields
Concat fields 就是多个字段连接起来形成一个新的字段
24 值映射
值映射就是把字段的一个值映射成其他的值
在数据质量规范上使用非常多,比如各系统对性别字段的定义都不同,但是在数据仓库的存储中要保持一致,这时候就可以通过映射将值定义成统一的存储方式
25 增加常量
增加常量就是在原来的数据流里面添加一列数据,该列数据都是相同的值
26 增加序列
增加序列就是给数据流添加一个序列字段
就像Oracle中添加自增长序列
27 字段选择
字段选择是从数据流中选择字段、改变名称、修改数据类型
在中间过程中我们会产生最终无用的数据,可以用这一步进行删除
28 计算器
计算器是一个函数集合来创建新字段,还可以设置字段是否移除(临时字段)
29 剪切-替换-操作字符串
1.剪切字符串是指定输入流字段裁剪的位置剪切出新字段,注意:位置从0开始
2.字符串替换是指定搜索内容和替换内容,如果输入流的字段匹配搜索的内容,就进行替换生成新字段
3.字符串的操作是去除字符串两端的空格和大小写切换,并生成新字段
30 去除重复记录和排序记录
- 去除重复记录
去除数据流里面相同的数据行
注意:必须先对数据流进行排序! - 排序记录
按照指定的字段对数据流降序或升序的排列
31 唯一行哈希值
唯一行(哈希值)就是删除数据流中重复的行
注意:唯一行和排序+去重的效果一样,但是实现原理不同
唯一行的效率更高
32 拆分字段
拆分字段就是吧字段按照分隔符拆分成两个或多个字段
注意:拆分字段后,原字段就不存在于数据流中了
33 列拆分为多行
按照指定的分割符把字段拆分为多行
34 列转行
列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据。
去除一些原来的列名,把一列数据变为字段
注意:列转行之前数据流必须进行排序
35 行转列
行转列就是把数据字段的字段名变成一列,把该字段对应的数据列转变成数据列
与列转行互逆
36 行扁平化
行扁平化就是把同一组的多行数据合并为一行
注意:
只有数据流的同类数据数据行记录一致才可以使用
数据流必须先排序,否则结果会不正确
应用章节
37 替换NULL值
就是把null值转换为其他的值
38 写日志
写日志主要是在调试的时候使用,把日志信息打印到日志窗口
流程章节
39 Switch-case
40 过滤记录
41 空操作
空操作一般作为数据流的终点
42 中止
中止是数据流的终点,如果有数据到这里,将会报错
用来校验数据的时候使用
查询章节
43 HTTP client
HTTP client是使用GET的方式提交请求,获取返回的页面内容
将网页地址存放在自定义常量数据中 (自定义常量数据:用来生成一些不变的数据)
案例:
- 首先创建自定义常量数据,将url存放在常量中
- 通过HTTP client从url中获取xml文件
- 使用Get data from XML,通过循环路径读取,输入你所需要的数据的 XML 文档路径,就可以将XML文件中的数据提取出来,然后设置相应的字段名(记得勾选考虑命名空间)
- 输出为excel文件
44 数据库查询
数据库查询就是相当于数据库里面的左连接,它会返回左边表中的全部数据以及右边表中你所指定的字段
45 数据库连接
数据库连接可以执行两个数据库的查询,和单参数的表输入
即通过连接条件,可以实现两张表跨库连接
46 流查询
流查询在查询前把数据都加载到内存中,并且只能进行等值查询
连接章节
47 合并记录
48 记录关联(笛卡尔积)
49 记录集连接
记录集连接就像数据库的左连接、右连接、内连接、外连接
注意:在进行记录集连接之前,要先对记录集进行排序
统计章节
50 分组
映射章节
51 映射(子转换)
- 映射(子转换)
是用来配置子转换,对子转换进行调用的一个步骤 - 映射输入规范
映射输入规范是输入字段,由调用的转换输入 - 映射输出规范
向调用的转换输出所有列,不作任何处理
最大的作用就是如果该功能使用重复率高,那么可以将这个功能进行封装,之后可以重复使用
脚本章节
54 执行SQL脚本
执行SQL脚本可以执行一个update语句,用来更新某个表中的数据
作业章节
53 作业
参数章节
- 全局参数
- 局部参数
- 参数的使用
57 常量传递
常量传递就是先自定义常量数据,在表输入的SQL语句里面使用 ? 来进行替代
? 号的替换顺序就是常量定义的顺序
58 转换命名参数
59 设置变量,获取变量
60 作业中设置变量
在作业中,可以提前设置变量,然后在接下来的转换中通过获取变量来使用变量,也可以通过**${}**直接使用变量
- 设置变量
- 获取变量来使用
- 直接使用作业中的变量