在数据建模中,对给出的数据进行预测处理是很重要的,当然一般考虑有归一化或者规范化等方法对数据进行预处理,这都是在数据完整和没有异常的情况下,需要考虑的。当数据量非常大的时候,往往容易出现数据缺失或者异常的现象,如果数据有确实或者有异常值,我们需要对对缺失值和异常值进行处理。
目录
一、数据预处理
1.1、处理缺失值
对于数据确实问题,如果确实量非常大,比如缺失数据达到该项总体数据的40%,就可以考虑直接将该项数据删除,直接不考虑该项指标。
如果缺失的数据比较少,对个体精度要求不高,可以使用均值和众数的方式补全数据。如果对精度要求较高,可以使用牛顿插值法或者样条插值,当然基本上都是用样条插值。