数据分析之缺失值和异常值的处理

最新推荐文章于 2025-01-10 11:33:55 发布

Spanish_pie

最新推荐文章于 2025-01-10 11:33:55 发布

阅读量814

点赞数

文章标签：笔记

本文链接：https://blog.csdn.net/Spanish_pie/article/details/131008403

版权

删除缺失值： 最简单的方法是直接删除包含缺失值的数据行或列。这适用于缺失值数量较少的情况，或者对应数据的丧失不会对分析产生重大影响。
填充缺失值： 可以使用不同的填充方法来替代缺失值。常见的填充方法包括使用均值、中位数、众数或前后值进行填充。对于数据符合均匀分布，用该变量的均值填补缺失，对于数据存在倾斜分布的情况，采用中位数进行填补。
插值法填充：线性插值，随机插值，多重差补法，热平台插补，拉格朗日插值，牛顿插值等。
模型预测： 基于其他特征，可以使用机器学习模型来预测缺失值。例如，线性回归、决策树或随机森林等模型可以用于预测缺失的数值特征。
哑变量填充：若变量是离散型，且不同值较少，可转换成哑变量，例如性别SEX变量，存在male,fameal,NA三个不同的值，可将该列转换成 IS_SEX_MALE, IS_SEX_FEMALE, IS_SEX_NA。若某个变量存在十几个不同的值，可根据每个值的频数，将频数较小的值归为一类'other'，降低维度。此做法可最大化保留变量的信息。

python对缺失值处理的例子：例一；例二

识别异常值： （1）简单统计分析，可以用pandas的describe函数可以快速发现异常值。describe函数（2）3σ原则：适用于服从正态分布或者近似正态分布的数据。μ - 3 σ < x < μ + 3σ，为正常区间数据，即P(|x - μ|) <= 0.003范围内的点为离群点。其中σ 为标准差，μ 为均值。
删除异常值： 如果异常值对分析没有价值或可能引起严重偏差，可以考虑删除它们。但在删除之前，务必确认这不会丧失重要信息。
视为缺失值：利用处理缺失值的方法来处理。这一方法的好处是能够利用现有变量的信息，来填补异常值。需要注意的是，将该异常值作为缺失值处理，需要根据该异常值(缺失值)的特点来进行，针对该异常值(缺失值)是完全随机缺失、随机缺失还是非随机缺失的不同情况进行不同处理。
平均值修正：如果数据的样本量很小的话，也可用前后两个观测值的平均值来修正该异常值。这其实是一种比较折中的方法，大部分的参数方法是针对均值来建模的，用平均值来修正，优点是能克服了丢失样本的缺陷，缺点是丢失了样本“特色”

参考：