Kettle操作手册-Kettle常用转换步骤

常用转换步骤

属于ETL中的T,属于清洗操作,是ETL过程中最重要的步骤,一般占据整个ETL过程的三分之二以上。

Concat Fields

Concat Fields就是多个字段连接在一起形成一个新的字段。
在这里插入图片描述

在这里插入图片描述

值映射

将字段里的某个值映射成其他的值

在这里插入图片描述

增加常量

就是在本身的数据流中增加一列数据,且这列数据的值都相同。

在这里插入图片描述

增加序列

增加序列就是给数据流添加一个序列字段。

在这里插入图片描述
在这里插入图片描述

字段选择

选择包括对字段的更名与是否舍弃字段。


在这里插入图片描述

选择结果

计算器

是一个函数集合,还可以设置字段是否移除与是否添加临时字段。

剪切字符串

剪切字符串是指定输入流字段剪切的位置剪切出新的字段

在这里插入图片描述

字符串替换

字符串替换是指定搜索内容和替换内容,如果输入流的字段匹配上搜索内容就进行替换生产新的字段

在这里插入图片描述

字符串操作

字符串操作时去除字符串两端的空格和大小写切换,并生成新的字段

在这里插入图片描述

排序记录

是按照指定字段的升序或降序排序

加粗样式

去除重复记录

去除重复记录是去除数据流里相同的数据行(前提是排序记录)

在这里插入图片描述

唯一行(哈希值)

唯一行(哈希值)就是删除数据流重复的行。(与排序+去除重复行效果一样,原理是通过hash来删除重复记录。)

唯一行(哈希值)效率高一点。
在这里插入图片描述

拆分字段

按照分隔符将一个字段拆分成两个或多个字段。

拆分字段后,原字段就不存在在数据流中了。

列拆分为多行

就是把指定分隔符的字段拆分成多行。

在这里插入图片描述

列转行

列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据。去除一些原有的列名,把一列数据变为字段。

行转列

列转行的逆操作

image-20200515155838811

行扁平化

把同一组的多行数据合并成一行

只有数据流的同类数据数据行记录一致的情况才可使用

数据流必须进行排序,否则结果会不正确

image-20200515161614123

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒 暄

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值