kettle案例5.2.2–缺失值处理—填充缺失值 数据挖掘中,面对的通常都是大型的数据库,它的属性有几十个甚至几百个,因为其中某个属性值的缺失而放弃大量其他的属性值,这种删除是对信息的极大浪费,所以产生了插补缺失值的思想与方法。常用的填充缺失值方法如下 案例介绍 通过Kettle工具,使用平均值填充法对文件people_survey.txt中的缺失值进行填充。 数据准备 对数据文件people_survey.txt,由于某种原因,在数据采集的过程中产生了大量的缺失值,文件people_survey.txt的具体内容如图所示 1.打开Kettle工具,创建转换 通过使用Kettle工具,创建一个转换fill_missing_value,并添加“文本文件输入”控件、“过滤记录”控件、“空操作(什么也不做)”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线