第五章 数据的清洗与检验
5.1数据去重
5.1.1 完全去重
1.打开kettle,创建转换
2.配置“csv文件输入”控件
3.配置“唯一行(哈希值)”控件
4.运行转换repeat_transform
5.1.2不完全去重
1.打开kettle,创建转换
2.配置“文本文件输入”控件
3.配置“唯一行(哈希值)”控件
4.运行转换part_repeat_transform
5.2缺失值处理
5.2.2去除缺失值
1.打开kettle,创建转换。
2.配置“文本文件输入”控件
3.配置“字段选择”控件
4.配置“过滤记录”控件
5.配置“excel输出”控件
6.运行delete_missing_value
7.查看文件file.xls