根据自己的经验,总结了一下使用过的数据预处理的方法和小技巧。在进行数据分析的时候,工作量最大也最复杂的地方就是对数据进行预处理,一般分为四个步骤:数据清理、数据集成、数据变换、数据归约。
一、数据清理(缺失值、异常值、无关值、噪音、重复值)
缺失值:1、删除:数量较少,对整体数据没什么影响的直接删除该条数据。2、对缺失数据插补:方法较多,例如用该属性的均值、众数、中位数插补,这些较为简单,不详述;最近邻插补,使用与缺失样本最接近的样本的该属性值插补;回归法(建模预测):就是根据样本集的其他属性来建立一个拟合模型预测缺失属性的值,根据模型来计算缺失值。常用的缺失值处理方法就这些,还有许多其他的方法,如拉格朗日插值等等。
异常值:首先要知道如何找出某个属性的异常值。我一般用的方法是画箱型图,
下四分位数(Q1)=(数据个数+1)0.25上四分位数(Q3)=(数据个数+1)0.75盒子长度IQR = Q3-Q1最小观测值(下边缘)=Q1 - 1.5IQR