在训练一个模型之前需要做数据的预处理,因为模型的最终效果决定于数据的质量和数据中蕴含的有用信息的数量。在实际的模型的训练样本数据中,样本可能会由于某些原因,造成一个或多个值的缺失。可能由于样本采集过程中的失误,或者度量方法对于某些特征不适用,或者数据未被填写等。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。如果我们直接忽视这些缺失值可能有些算法无法处理这些缺失值,将会触发异常。如果,我们之间将包含缺失值的数据删除就会造成数据的浪费,而且有时候可能数据本来就不多,删除包含缺失值的数据之后数据就更少了,这将会影响我们训练出来模型的泛化能力。对于数据较多的情况,可以做一些删除处理。除此之外,我们还可以对缺失值进行填充,下面就介绍一些缺失数据的处理方式。
在使用python进行数据分析处理的时候,我们可以通过第三方库pandas来进行,可以极大的简化处理步骤。