kettle转换实践(一)-排序记录,记录集连接,过滤记录

如果我们清洗的数据是多个维度的,那么很有可能对数据进行关联得到一张最终表进行分析。
比如:

回答集合的数据里有如下字段:id,optionId,user。包含了谁回答了哪个问题,选项是什么。

选项集合的数据里有如下字段:id,question,option。

我们最终希望得到的数据集合是:id,question,option,user。

那么就需要对两个集合进行关联
新建流程如下:

对于几个step工具的说明:

(1)排序记录

排序记录只需要指定排序字段和方向即可,其他临时目录可以使用默认目录。


(2)记录集连接

记录集连接可以实现数据集合的关联,也分为内连接,左连接,右连接,外连接。我们这里以用户回答为主表,则选择左连接即可。连接字段就是集合一与集合二哪个字段相等时合并成一条记录。这里是回答集合的optionId和选项集合的id


(3)过滤记录

把两个集合连接关联起来之后我们发现有些脏数据存在,就是一些老的用户回答没有对应的问题和选项,那么这部分数据我们是不存入数据库的,则在入库之前需要对数据进行过滤。
新建过来记录流程如下:

填写过滤的条件即可。
我们这里判断条件是option 不为空时 为true,然后把为true的数据传送到下一步MongoDB Output里。
如下:

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kettle中的"排序记录"步骤主要用于对字段进行排序。一般情况下,它会与"去除重复记录"和"记录连接"步骤一起使用。在配置参数中,你需要选择要排序的字段以及排序的方式(升序或降序)。接下来,将结果数据与原始数据进行对比,你会发现无序数据已经按照你选择的排序方式进行了排序。 另外,Kettle中的"记录连接"步骤可以用于实现数据集合的关联,包括内连接、左连接、右连接和外连接等。在这里,我们以用户回答为主表,并选择左连接连接字段是用来判断哪个字段在两个集合之间相等时将记录合并在一起。在这个例子中,连接字段是回答集合的optionId和选项集合的id。 希望这可以帮助你理解Kettle中的"排序记录"和"记录连接"步骤的使用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Kettle中“排序记录”的使用](https://blog.csdn.net/AnameJL/article/details/119713337)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [kettle案例六数据表关联--排序记录-记录连接-过滤记录](https://blog.csdn.net/q383965374/article/details/78962029)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [kettle转换实践(一)-排序记录记录连接过滤记录](https://blog.csdn.net/kone0611/article/details/90575944)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值