kettle开发篇-去除重复记录+排序记录-Day11

前言:

今天刚好第十一天,从今天开始我们讲5节关于EXCEL的操作,昨天讲了EXCEL表的计算,今天将在计算之前,需要EXCEL表去重再去计算,避免重复数据影响我们的决策。在这就需要用到两个组件,分别是去除重复记录+排序记录。这两个组件的语法也特别简单就不详细介绍了,就在下文案例中穿插讲述。

一、去除重复记录

去除重复记录,就是将数据流中的数据进行字段比较,从而去掉重复值的过程。去除重复记录的前提是需要将数据流中的数据进行排序,然后再进行去重操作。

image.png

去除重复记录的逻辑是,如下图,我们将需要比较的字段作为比较值来比较是否重复。如果我们按数据库的角度去理解的话,其实就是联合主键,需保证联合主键的唯一性。 image.png

排序是我们将指定的字段进行升序或者降序操作。

image.png

二、实例

任务:我们将EXCEL表的数据去掉重复记录并输出。根据上面我们学到的知识,最后的作业由EXCEL输入-排序记录-去除重复记录-EXCEL输出组成。

EXCEL输入:如图所示我们EXCEL表里面一共有7条记录,这里面需要注意的是,我们在去除重复记录的时候,是不是大小写敏感,如果我们大小写敏感的话,那我们如图所示,我们是没有重复记录的,因此我们在去除重复记录的时候要根据需求来选择是否大小写敏感来过滤我们的数据,从而达到我们去除重复的目的。

image.png

最终运行效果,最终我们可以看到,因为我们选择了大小写不敏感,最后输出至EXCEL表中只有了6条记录,这就是今天所学的知识,虽然简单,但是要完全弄清楚还得用点心哦,去除重复记录还有个操作叫哈希值,明天我们来介绍哈希值的操作,来看看他们两个有什么原理上的不同。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

他们叫我技术总监

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值