题目要求:
1.读取revenue.txt文件,新建一个转换命名为delete_missing_value,并添加“文本文件输入控件”、“字段选择控件”、“过滤记录控件”、“空操作控件”、“Excel输出控件”,完成对revenue.txt文件缺失值删除的操作,并将操作结果以Excel格式输出。(提示:revenue.txt文件中四个字段分别为Name、Sex、Pay、Area,其中Pay为整型,其余为字符串类型,操作时先删除缺失值较多的字段,再删除存在缺失值的记录)
2.读取people_survey.txt文件,新建一个转换命名为fill_missing_value,并添加“文本文件输入控件”、“过滤记录控件”、“空操作控件”、“替换NULL值控件”、“合并记录控件”、“字段选择控件”,完成对people_survey.txt文件缺失值填充的操作,并将操作结果以文本文件格式输出(要求字段和值格式对齐)。(提示:people_survey.txt文件中三个字段分别为userid、hours_per_week、workclass,其中hours_per_week为整型,其余为字符串类型,用均值44替换hours_per_week中的缺失值,用Private替换workclass中的缺失值)。
目录
一、删除缺失值
1、文本文件输入
①导入并增加文件
② 分隔符为’tab’,取消头部复选框
③ 获取字段并修改字段名称
2、字段选择
①获取字段
②移除‘sex’字段
3、过滤记录
设置过滤条件
4、输出excel文件
①设置输出到revenue_test.xls文件
②获取字段
5、运行
查看执行结果
查看revenue_test.xls文件
二、填充缺失值
1、添加文件
②分隔符采用tab,取消头部复选框
③获取字段
预览结果如下
2、过滤记录
3、替换NULL值
勾选“选择字段”并设置要替换的字段及值
4、合并记录
5、替换NULL值2
6、字段选择
①获取字段
②移除flagfield字段
7、Excel输出
①选择输出到的people_test.xls文件
②获取字段
8、运行并查看执行结果
在文件中查看