Kettle大数据清洗实战之二:字段选择、连接表、过滤表

一、随机数的字段选择

步骤:
1.运行kettle,单击‘文件’,选择“新建”-“转换”选项,在“输入”的界面上选择“生成随机数”,在“转换”的界面上找到“增加常量”和“计算器”,将它们拖拽到右侧的工作区域中,并建立节点连接,流程如图所示
在这里插入图片描述
2.双击“生成随机数”,在打开的对话框中设置“名称”为 x,“类型”为“随机数字”,如下图
在这里插入图片描述

3.单击“确定”,在工作区域右击“生成随机数”图标,在弹出的快捷菜单上选择“改变开始复制的数量”,并修改数字为30,如下图
在这里插入图片描述
在这里插入图片描述
4.双击“增加常量”图标,在弹出的对话框中设置“名称”为y,“类型”为Number,“值”为100,“设置空串”为“否”,如下图
在这里插入图片描述
5.双击“计算器”图标,在弹出对话框中设置“新字段”为x+y,“计算”为A+B,“字段A”为x,“字段B”为y,“值类型”为Number,“移除”为“否”,如下图
在这里插入图片描述
6.保存该文件,执行“运行”命令,如下图
在这里插入图片描述
7.右击“计算器”图标,在弹出的快捷菜单中选择Preview选项,如下图
在这里插入图片描述
8.在弹出的对话框中选择“计算器”选项,并单击“快速启动”,可查看运行结果如下图
在这里插入图片描述
在这里插入图片描述

二、不同数据表的连接

步骤:
1.准备两个Excel文件存放学生信息,分别为1.xlsx、2.xlsx,如下图
在这里插入图片描述

2.运行Kettle,单击“文件”,选择“新建”-“转换”,在“输入”中选择“Excel输入”,“连接”中找到“记录集连接”,拖拽到右侧工作区域中,并建立连接,其中“Excel输入”拖拽两次,如下图
在这里插入图片描述
3.双击“Excel输入1”和“Excel输入2”,在弹出的对话框中分别增加创建好的1.xlsx和2.xlsx,如下图
在这里插入图片描述
在这里插入图片描述
4.双击“Excel输入”,选择“工作表”选项卡,在弹出对话框中增加要读取的工作表名称,如下图
在这里插入图片描述
在这里插入图片描述
5.选择“字段”选项卡,在弹出的对话框中输入字段内容,如下图
在这里插入图片描述

在这里插入图片描述
6.双击“记录集连接”,在弹出的“合并排序”对话框中进行设置,如下图
在这里插入图片描述
7.保存该文件,执行“运行”命令,如下图
在这里插入图片描述

三、过滤数据表

步骤:
1.运行Kettle,单击“文件”,选择“新建”-“转换”,选择“Excel输入”“过滤记录”“值映射”和“文本文件输出”,如下图

在这里插入图片描述
2.双击“Excel输入”,将1.xlsx文件导入,并建立字段如下图
在这里插入图片描述
3.双击“过滤记录”图标,在弹出的“过滤记录”对话框中设置过滤条件,当发送为true数据执行映射,如下图
在这里插入图片描述
4.双击“值映射”,设置要使用的字段名和字段值,通过设置将性别中的“男”和“女”转换为male和female,如下图
在这里插入图片描述
5.双击“文本文件输出”,设置要输出的文件名称和格式,如下图
在这里插入图片描述
6.保存该文件,并执行“运行”命令,如下图
在这里插入图片描述

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值