数据预处理
1,什么是数据预处理
数据的迅速膨胀导致很多无用的、错误的数据,所以需要对数据进行预处理。
2,数据预处理的步骤
2.1 数据清洗
数据清洗通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据。主要的数据清洗方法:
2.1.1 遗漏数据处理
假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入(income)属性,对于为空的属性值,可以采用以下方法进行遗漏数据(missing data)处理
.忽略该条记录
若一条记录中有属性值被遗漏了,则将此条记录排除在数据挖掘过程之外。但有时这种处理方法不是很有效。
.手工填补遗漏数据
这种方法比较耗时,而且对于大规模数据可行性较低。
.利用缺省值补漏
预先设定一个缺省值来填补缺失的属性值。但这种方法也不推荐使用。
.
2.2 数据集成
2.3 数据转换
2.4 和数据消减
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/20498361/viewspace-722532/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/20498361/viewspace-722532/