使用kettle工具完全去重和缺失值填充

        本次实验包括对csv文件的完全去重和对txt文件的的缺失值进行填充。

一、完全去重

        完全去重是指消除完全重复的数据。

1.在kettle下新建转换

        在新建的转换下添加“csv文件输入”控件、“唯一行(哈希值)”控件,连起来,如图1-1。

图1-1 新建转换

2.配置控件

        首先双击“csv文件输入”控件,进入界面后点击文件名“浏览”按钮,选择要进行完全去重的csv文件,然后点击“获取字段”。最后单击“预览”按钮,查看csv文件中数据是否下载的输入流中,如图1-2所示。具体配置如图1-3所示。

图1-2 预览数据

 图1-3 “csv文件输入”控件

        然后配置“唯一行(哈希值)”控件。添加去重字段,可单击“获取”按钮,添加需要去重的字段,具体如图1-4所示。

图1-4 “唯一行(哈希值)”控件

         点击确定。

3.运行转换

         运行转换,成功界面如图1-5所示。完全去重后,可在执行结果窗口的Preview data选项卡查看是否消除该文件完全重复的数据,如图1-6所示。

图1-5 转换成功

图1-6 Preview data选项卡

二、缺失值填充

1.创建转换

        新建转换,拖拽如下图:

图2-1 转换内容

2.配置控件

        打开“文本文件输入”控件,导入文件并点击“添加”,配置结果如图2-2所示。

图2-2 “文件”选项卡 

        “内容”选项卡配置如图2-3所示,分解符为一个tab,即你按一下“Insert TAB”键。

图2-3 “内容”选项卡

         “字段”选项卡输入内容如2-4所示。

图2-4 “字段”选项卡

         “文本文件输入”控件配置完成。

        选择“过滤记录”控件,具体操作如图2-5所示。

图2-5 “过滤记录”控件

         然后配置“替换NULL值”控件,如图2-6所示。

图2-6 “替换NULL值”控件

         打开“合并记录”控件,配置如2-7所示。

图2-7 “合并记录”控件

         然后配置“替换NULL值2”控件,如图2-8所示。

图2-8 “替换NULL值2”控件

          打开“字段选择”控件,配置如2-9所示。

图2-9 “字段选择”控件

         完成一切配置。

3.运行转换

        运行该转换,如图2-10所示,填充后的表如2-11所示。

图2-10 转换成功

图2-11 Preview data选项卡

 具体操作见书:《数据清洗》黑马程序员

我的博客属于操作记录,没什么大的参考意义。kettle是一个好用数据清洗软件,想要学习就去看书实践,你一定会比我厉害。 

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值