目录
2.对文件people_survey.txt中的缺失值进行填充
1.对文件merge.csv进行完全去重
1.1数据准备
1.2打开kettle工具,新建转换
创建转换repeat_transform,并添加“CSV文件输入”、“唯一行(哈希值)”以及hop跳连接线;
1.3配置“CSV文件输入”控件
进入“CSV文件输入”界面,选择要进行完全去重处理的CSV文件merge.csv,获取字段自动检索CSV文件
预览查看CSV文件merge.csv的数据已成功加载到CSV文件输入流中
1.4配置“唯一行(哈希值)”控件
进入“唯一值(哈希值)”控件,添加要去重的字段,完成“唯一行(哈希值)”控件的配置
1.5运行转换repeat_transform
运行创建的转换repeat_transform,实现消除CSV文件merge.csv中完全重复的数据
如图,CSV文件merge.csv中有2条数据与其他数据完成重复
CSV文件merge.csv中完全重复数据已被消除
2.对文件people_survey.txt中的缺失值进行填充
2.1打开kettle工具,创建转换
创建转换fill_missing_value,添加“文本文件输入”、“过滤记录”、“空操作”、“替换NULL值”、“合并记录”、“字段选择”控件及hop跳连接线
2.2配置“文本文件输入”控件
进入“文本文件输入”控件,选择要填充缺失值的文件people_survey.txt,添加到“文本文件输入”控件中
切换到“内容”选项卡界面,清除分隔符处的默认分隔符“;”,单击Inster TAB按钮,在分隔符处插入一个制表符,取消勾选“头部”复选框
切换到“字段”选项卡界面,根据文件people_survey.txt的内容添加对应的字段名称,并指定数据类型,所添加字段选择“不去掉空格”
单击“预览记录”按钮,查看文件是否成功抽取到文本文件输入流中,查看效果
完成“文本文件输入”控件的配置
2.3配置“过滤记录”的控件
进入“过滤记录”界面,将过滤字段设置为workclass,过滤值设置为Private作为过滤条件,发送“true”数据给给步骤:”下拉列表选择“空操作”控件中;在“发送false数据给步骤”:后的下拉列表选择空操作控件中,将workclass字段值不为Private的数据放在“空操作(什么也不做)2”控件中
完成“过滤记录”控件的配置
2.4配置“替换NULL值”控件
进入“替换NULL值”界面,勾选“选择字段”复选框,并在“字段”框添加字段hours_per_week,值替换为44
完成“替换NULL值”控件的配置
2.5配置“合并记录”控件
进入“合并行(比较)”界面,在“旧源数据:”后下拉列表中选择“替换NULL值”,在新数据源中后的下拉列表中选择“空操作(什么也不做)2”;在匹配的关键字:部分添加关键字userid
完成“合并记录”控件的配置
2.6配置“替换NULL值2”控件
进入“替换NULL值”界面,勾选“选择字段”复选框,并在“字段”框添加字段为workclass,值替换为Private
完成“替换NULL值2”控件的配置
2.7配置“字段选择”控件
进入“选择/改名值”界面,在“移除”选项卡界面中添加要移除的字段flagfield
完成“字段选择”控件的配置
2.8运行转换fill_missing_value
运行创建的转换fill_missing_value,实现填充文件people_survey.txt中的缺失值