数据清洗例子

1.Excel输入

双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到物理成绩.xls文件,选择“增加”按钮,如图1所示;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。
在这里插入图片描述
在这里插入图片描述

2.生成记录

双击“生成记录”控件,进入生成记录控件界面,首先将限制参数改为12,然后在“字段表”中,对各字段的参数进行设置,最后点击“预览”按钮,弹出“输入预览记录数”对话框,预览记录数采用默认值,单击“确定”按钮。弹出“预览数据”对话框,展示生成记录的数据,具体如下图所示。
在这里插入图片描述

3.生成随机数

在工作中,往往需要生成随机数验证码,作为数据或文件的验证码。 为方便给授权用户验证文件,需要通过生成随机数,生成一组MD5信息授权码,作为数据文件的认证授权码。

双击“生成随机数”控件,进入生成随机数控件界面,首先设置字段参数,在“生成随机数”转换工程中,单击“生成随机数”控件,再单击工作区上方的图标。弹出“转换调试窗口”对话框,展示生成随机数的数据,单击“快速启动”按钮,弹出“预览数据”对话框,展示生成随机数的授权码数据,具体如下图所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.获取系统信息

系统信息是指Kettle系统环境的信息,包括了计算机系统的日期、星期等时间类型信息,计算机名称、IP地址等设备信息,Kettle系统转换过程中的信息等。 为方便读取计算机上到本月最后一天的交易数据文件,需要通过获取系统信息,获得当月最后一天的时间,以及当前计算机名称与IP地址等系统信息。

双击“获取系统信息”控件,进入获取系统信息控件界面,首先在字段表中设置字段参数,单击“浏览记录”按钮,弹出“Enter preview size”对话框,单击“确定”按钮,弹出“预览数据”对话框,展示获取系统信息的数据,具体如下图所示。
在这里插入图片描述
在这里插入图片描述

5.排序记录

为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。

(1)双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到2019年11月数学月考成绩.xls文件,选择“增加”按钮;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。
在这里插入图片描述
在这里插入图片描述
(2)双击“排序记录”控件,进入排序记录控件界面,在“字段”表中对各字段的参数进行设置,然后选中“排序记录”控件,点击工作区上方的图标,预览数据,具体如下图所示。
在这里插入图片描述

6.去除重复记录

由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】组件,去除这些重复的数据。

(1)双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到期成绩.xls文件,选择“增加”按钮;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。
![在这里插入图片描述](https://img-blog.csdnimg.cn/249a237acb6746c5a4594f022519338c.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAbTBfNTM4MzAzNzg=,size_20,color_FFFFFF,t_70,g_se,x_16
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(2)双击“排序记录”控件,进入排序记录控件界面,在“字段”表中对各字段的参数进行设置,具体如下图所示。
在这里插入图片描述

(3)双击“去除重复记录”控件,进入此界面,设置用来比较的字段参数,在“用来比较的字段”表中,“字段名称”设置为“学号”,“忽略大小写”设置为“Y”,此时完成“去除重复记录”组件参数的设置, 然后选中“去除重复记录”控件,点击工作区上方的图标,预览数据,具体如下图所示。
在这里插入图片描述

7.替换NULL值

(1)双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到2019年11月英语月考成绩.xls文件,选择“增加”按钮;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(2)双击“替换NULL值”控件,进入此界面,选择“选择字段”方式设置字段参数,“选择字段”设置为“√”,并在“字段”表中,对字段的参数进行设置。此时完成“替换NULL值”组件参数的设置,在“替换NULL值”转换工程中,单击“替换NULL值”控件,再单击工作区上方的图标,预览替换NULL值后的数据,具体如下图所示。
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值