第五章Kettle数据的清洗与检验

目录

一.数据去重

二.完全去重

        1.打开Kettle工具,创建新转换

        2.配置“CSV文件输入”控件

        3.配置“唯一行(哈希值)”控件

        4.保存运行

三.缺失值填充

        1.创建转换,添加控件

        2.配置“文本文件输入”控件

        3.配置”过滤记录“控件

        4.配置“替换NULL值”控件

        5.配置“合并记录”控件

        6.配置“替换NULL值2”控件

        7.配置“字段选择”控件

        8.运行结果


一.数据去重

        数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其除,只保存唯一的数据单元,从而消除冗余数据。通常,数据去重方法分为两种,分别是完全去重和不完全去重。
        完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。

二.完全去重

        1.打开Kettle工具,创建新转换

                在转换中依次添加“csv文件输入”、“唯一行(哈希值)”控件,如下图:

                       

        2.配置“CSV文件输入”控件

                1.双击控件打开配置界面,浏览添加需要去重的文件

                   

                2.勾选包含列头行(简易转换如果勾选了,将其取消)

                  

                3.点击下方获取字段,自动检索csv文件,并对字段类型等自动进行分析

                   

                4.点击确定,配置完成。

        3.配置“唯一行(哈希值)”控件

                1.双击控件进入配置页面,点击获取,自动获取字段

                   

                   

                2.点击确定,配置完成

        4.保存运行

                运行结果如下:

                  

三.缺失值填充

        1.创建转换,添加控件

                

        2.配置“文本文件输入”控件

                1.双击控件进入配置页面,浏览要处理的文件,点击增加,如下图:

                

                2.浏览记录查看缺失值,如下图: 

                             

                3.点击内容选项进行下面的设置:

                        删除分隔符中的分号,点击右侧insert TAB添加制表符作为分割符

                        

                4.点击字段选项,获取字段

                        

                5.点击确定,完成配置

        3.配置”过滤记录“控件

                1.双击控件进入配置页面,添加过滤条件

                        在浏览数据时我们看到,16号的hours_per_week存在缺失值,而workclass为Private,所以我们可以将过滤字段设置为                   workclass,如下图:

                        

                2.将workclass=Private的字段发送给空操作(什么也不做),不等于的发送给空操作(什么也不做)2。

                3.点击确定,配置完成

        4.配置“替换NULL值”控件

                点击选择字段,在下方字段中添加hours_per_week,值替换为44,如下图:

                    

        5.配置“合并记录”控件

                将新旧记录进行合并,添加匹配的关键字段userid,如下图:

                         

        6.配置“替换NULL值2”控件

                双击进入配置页面,勾选选择字段,在下方字段中添加workclass,值替换为Private

                         

        7.配置“字段选择”控件

                 双击进入配置页面,选择移除选项,添加flagfield字段,如下图:

                        

        8.运行结果

                  

                

     

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值