kettle转换实践(一)-排序记录,记录集连接,过滤记录

Kettle 专栏收录该内容
16 篇文章 1 订阅

如果我们清洗的数据是多个维度的,那么很有可能对数据进行关联得到一张最终表进行分析。
比如:

回答集合的数据里有如下字段:id,optionId,user。包含了谁回答了哪个问题,选项是什么。

选项集合的数据里有如下字段:id,question,option。

我们最终希望得到的数据集合是:id,question,option,user。

那么就需要对两个集合进行关联
新建流程如下:

对于几个step工具的说明:

(1)排序记录

排序记录只需要指定排序字段和方向即可,其他临时目录可以使用默认目录。


(2)记录集连接

记录集连接可以实现数据集合的关联,也分为内连接,左连接,右连接,外连接。我们这里以用户回答为主表,则选择左连接即可。连接字段就是集合一与集合二哪个字段相等时合并成一条记录。这里是回答集合的optionId和选项集合的id


(3)过滤记录

把两个集合连接关联起来之后我们发现有些脏数据存在,就是一些老的用户回答没有对应的问题和选项,那么这部分数据我们是不存入数据库的,则在入库之前需要对数据进行过滤。
新建过来记录流程如下:

填写过滤的条件即可。
我们这里判断条件是option 不为空时 为true,然后把为true的数据传送到下一步MongoDB Output里。
如下:

  • 1
    点赞
  • 0
    评论
  • 3
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

课时:ETL 的概念,Kettle 的概念、功能、操作 第二课时:Kettle 资源库、参数化、运行方式(本地、远程、集群、命令行)、日志、 第三课时:输入步骤(表输入、文本文件输入、XML 文件输入...) 第四课时:输出步骤(表输出、更新、删除、文本文件输出、XML文件输出...) 第五课时:转换步骤(过滤、字符串处理、拆分字段、行转列、排序排重复、计算器、闭合距离等...) 第六课时:应用步骤、流程步骤(ETL元数据注入、处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...) 第七课时:查询步骤、连接步骤(数据库查询、流查询、合并记录记录集连接、笛卡尔、WEB查询、XML连接) 第八课时:映射步骤(子转换)、集群、 Kettle的参数和变量、 第九课时:数据仓库构建过程、检验步骤、统计步骤(采样等)、分区、脚本步骤()javascript 第十课时:最佳实践,应用案例 第十课时:转换性能调优,作业设计、控制、循环,应用案例二 第十二课时:数据仓库概念、维度查询更新步骤、Kettle配置文件、 -----脚本步骤(二),上线部署、Ketle代码编译 第十三课时:插件开发 (数据库、步骤)、 -----各种配置文件、应用集成方法 第十四课时:插件开发二 -----步骤、作业项、JavaClass 第十五课时:大数据插件(Hadoop 文件输入/输出,HBase输入/输出,MapReduce输入/输出,MongoDB输入/输出)
©️2021 CSDN 皮肤主题: 技术工厂 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值