Kettle中的去除重复记录

1.选择一个输入源

这里使用的是Excle文件作为输入源,文件中数据如下
在这里插入图片描述

2.选择去除重复记录功能算子

转换 --> 去除重复记录,如下图
在这里插入图片描述

3.配置相关参数

在这里插入图片描述
上图红框中的”字段名”就是你想要去重的字段名,后面的”忽略大小写”这就就根据实际情况进行选择,这里我们先以”type”字段作为去重项
这个时候就会提示你,要先以去重字段进行排序,如下图:
在这里插入图片描述
所以在使用”去除重复记录”这个转换算子之前一定要对去重字段进行排序。

4.使用”排序记录”

在”转换模块中”有一个”排序记录”,这个就是我们用来排序的转换算子,如下图:
在这里插入图片描述

5.配置排序参数

因为我们去重字段选择的是”type”,所以我们的排序字段也要保持一致,如下图:
在这里插入图片描述
配置好之后我们点击确定就可以了,流程图如下:
在这里插入图片描述

6.结果测试

执行流程,通过preview data看一下处理后的数据,如下图
在这里插入图片描述
可以看到结果数据已经以”type”字段进行去重了。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值