kettle——异常值的删除、替换

本文介绍了如何使用数据处理工具进行异常值的处理。在删除操作中,通过文本文件输入,过滤掉temperature.txt中温度为137华氏度的记录,然后以Excel格式输出。在替换操作中,从数据库表中读取数据,过滤并替换interpolation_data中超出范围和特定值的Height,再用均值填充NULL值,并保存到Excel文件。
摘要由CSDN通过智能技术生成

题目要求:

1.读取temperature.txt文件,新建一个转换命名为test6_1,并添加“文本文件输入控件”、“过滤记录控件”、“空操作控件1”、“空操作控件2”“Excel输出控件”,完成对temperature.txt文件异常值删除的操作,并将操作结果以Excel格式输出。(提示:temperature.txt文件中两个字段分别为time、temperature(温度),其中time为字符串型,temperature为整型,将温度为137华氏度的异常值过滤掉)
2.读取interpolation_data文件,新建一个转换命名为test6_2,并添加“表输入控件”、“过滤记录控件”、“空操作控件1”、“空操作控件2”、“设置值为NULL控件”、“合并记录控件”、“替换NULL值控件”,“字段选择控件”,“Excel输出控件”完成对interpolation_data文件异常值替换的操作,并将操作结果以输出到数据表中。(提示:表中三个字段分别为id、Gender、Height,其中id为整型,Gender为字符串类型,Height为浮点数类型;已知通过箱线法计算得出该数据集的下限为114,上限为226,故在过滤记录中设置过滤条件为114.0<=Height<=226.0;在“设置值为NULL控件”中,将Height为260.0的字段值设置为NULL,然后合并记录,利用“替换NULL值控件”将Height中的NULL值用均值170替换,再将标志字段flagfield去除,最后输出到Excel中,并查看是否完成替换操作)。

目录

一、异常值的删除操作

1、文本文件输入

2、过滤记录

3、Excel输出

4、运行

二、异常值的替换操作

1、表输入

2、过滤记录

3、设置值为NULL

4、合并记录

5、替换NULL值

6、字段选择

7、Excel输出

8、运行

一、异常值的删除操作

1、文本文件输入

 ①添加文件

 ②分隔符改为“tab”,取消”头部”复选框

 ③获取字段,并修改字段名称

 ④预览记录,如下信息:

2、过滤记录

 进行如下设置

3、Excel输出

①点击”浏览”,将转换结果保存到test6_1.xls文件

 ②获取字段,将温度的值设置成整数

4、运行

根据执行过程看出过滤了一条记录

 

 验证  可知137已被过滤

二、异常值的替换操作

1、表输入

①连接数据库

可通过“测试”,验证是否连接数据库

②选择连接的数据表

 ③预览查看数据表信息

2、过滤记录

进行如下设置

3、设置值为NULL

4、合并记录

5、替换NULL值

6、字段选择

①获取字段

 ②移除字段

7、Excel输出

①将转换结果保存为test6_2.xls文件

 ②获取字段

8、运行

验证

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值