进行数据挖掘和机器学习之前,必须保证数据是可靠、可用的。
这就要通过一定技术,对数据进行处理和转换,将原始数据转化成算法和模型需要的格式和内容。
这就是数据预处理技术,其对数据挖掘效果的好坏,预测结果的正确性具有基础性的作用。
数据预处理一般包括:数据清洗、集成、转换、规约。
数据清洗:
目的:格式标准化、异常数据清理、错误纠正、重复数据清除。
主要任务:缺失值处理、去噪。
缺省值的处理:忽略元祖、人工填写、使用全局常量、使用属性中位数、使用属性平均值、使用同类样本属性平均值或中位数。
去噪:噪声由随机误差产生。去噪的方法:舍弃噪声数据、噪声平滑、人工检查。
去噪的数据平滑方法:分箱(等深、等宽)、回归。
数据集成:
目的:集成多个数据源的数据,增大数据完整性
数据转化:
目的:将数据抓换成数据挖掘算法、机器学习算法接受的格式。
方法:线性归一化,Z-score规范化为标准高斯分布。
数据规约:<