本次实验包括对csv文件的完全去重和对txt文件的的缺失值进行填充。
一、完全去重
完全去重是指消除完全重复的数据。
1.在kettle下新建转换
在新建的转换下添加“csv文件输入”控件、“唯一行(哈希值)”控件,连起来,如图1-1。
图1-1 新建转换
2.配置控件
首先双击“csv文件输入”控件,进入界面后点击文件名“浏览”按钮,选择要进行完全去重的csv文件,然后点击“获取字段”。最后单击“预览”按钮,查看csv文件中数据是否下载的输入流中,如图1-2所示。具体配置如图1-3所示。
图1-2 预览数据
图1-3 “csv文件输入”控件
然后配置“唯一行(哈希值)”控件。添加去重字段,可单击“获取”按钮,添加需要去重的字段,具体如图1-4所示。
图1-4 “唯一行(哈希值)”控件
点击确定。
3.运行转换
运行转换,成功界面如图1-5所示。完全去重后,可在执行结果窗口的Preview data选项卡查看是否消除该文件完全重复的数据,如图1-6所示。
图1-5 转换成功
图1-6 Preview data选项卡
二、缺失值填充
1.创建转换
新建转换,拖拽如下图:
图2-1 转换内容
2.配置控件
打开“文本文件输入”控件,导入文件并点击“添加”,配置结果如图2-2所示。
图2-2 “文件”选项卡
“内容”选项卡配置如图2-3所示,分解符为一个tab,即你按一下“Insert TAB”键。
图2-3 “内容”选项卡
“字段”选项卡输入内容如2-4所示。
图2-4 “字段”选项卡
“文本文件输入”控件配置完成。
选择“过滤记录”控件,具体操作如图2-5所示。
图2-5 “过滤记录”控件
然后配置“替换NULL值”控件,如图2-6所示。
图2-6 “替换NULL值”控件
打开“合并记录”控件,配置如2-7所示。
图2-7 “合并记录”控件
然后配置“替换NULL值2”控件,如图2-8所示。
图2-8 “替换NULL值2”控件
打开“字段选择”控件,配置如2-9所示。
图2-9 “字段选择”控件
完成一切配置。
3.运行转换
运行该转换,如图2-10所示,填充后的表如2-11所示。
图2-10 转换成功
图2-11 Preview data选项卡
具体操作见书:《数据清洗》黑马程序员
我的博客属于操作记录,没什么大的参考意义。kettle是一个好用数据清洗软件,想要学习就去看书实践,你一定会比我厉害。