Kettle8.2转换组件之唯一行(哈希值)

一、相关说明


  • 需求说明:
    从Excel读取数据,去除其中重复的字段,并把结果数据保存在数据库表中。
  • 唯一行组件说明:
    唯一行(哈希值)就是删除数据流重复的行。删除重复的行,并仅筛选作为该步骤输入数据的惟一行。它跟踪内存中的重复行,并且不需要排序输入来处理重复行。
  • 注意: 唯一行(哈希值)和(排序记录+去除重复记录)效果一样的,但是实现的原理不同!唯一行(哈希值)执行的效率会高一些!由于内存分配问题,此步骤适用于非客户机机器。所需的内存和硬件数量将根据您正在处理的数据的大小而变化。另外,您也可以将此步骤与Spark处理引擎一起使用,以帮助克服内存约束问题。

二、设计转换


  • 输入:Excel输入
  • 转换: 唯一行(哈希值)
  • 输出:表输出
    在这里插入图片描述

三、转换配置


  • Step1:Excel输入组件配置

    • 双击组件,写上步骤名称等
      在这里插入图片描述在这里插入图片描述
  • Step2:唯一行(哈希值)组件配置

    • 双击打开,设置步骤名称
    • 配置信息,如下
      在这里插入图片描述
  • Step3:表输出组件配置

    • 双击打开,设置步骤名称

    • 配置信息,如下
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    • 保存转换

      上述配置好后,点击确定即可!

四、运行转换


  • 点击运行按钮,成功运行如下:
    在这里插入图片描述

五、查看结果


  • 数据库表中查看结果
    在这里插入图片描述

  • Preview data中查看结果
    在这里插入图片描述

  • 执行流程
    E:Excel读取源文件中的数据到行集中进行缓存
    T:通过Hop读取行集中的数据流,通过经唯一行(哈希值)删除重复记录,将结果数据缓存再rowsets中
    L:通过Hop读取上一个步骤传递过来的行集数据,并将其写出到数据库表中

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

若兰幽竹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值