数据分析之缺失值和异常值的处理

处理缺失值:
  1. 删除缺失值: 最简单的方法是直接删除包含缺失值的数据行或列。这适用于缺失值数量较少的情况,或者对应数据的丧失不会对分析产生重大影响。

  2. 填充缺失值: 可以使用不同的填充方法来替代缺失值。常见的填充方法包括使用均值、中位数、众数或前后值进行填充。对于数据符合均匀分布,用该变量的均值填补缺失,对于数据存在倾斜分布的情况,采用中位数进行填补。

  3. 插值法填充:线性插值,随机插值,多重差补法,热平台插补,拉格朗日插值,牛顿插值等。

  4. 模型预测: 基于其他特征,可以使用机器学习模型来预测缺失值。例如,线性回归、决策树或随机森林等模型可以用于预测缺失的数值特征。

  5. 哑变量填充:若变量是离散型,且不同值较少,可转换成哑变量,例如性别SEX变量,存在male,fameal,NA三个不同的值,可将该列转换成 IS_SEX_MALE, IS_SEX_FEMALE, IS_SEX_NA。若某个变量存在十几个不同的值,可根据每个值的频数,将频数较小的值归为一类'other',降低维度。此做法可最大化保留变量的信息。

python对缺失值处理的例子:例一例二

处理异常值:
  1. 识别异常值: (1)简单统计分析,可以用pandas的describe函数可以快速发现异常值。describe函数 ​​​​​​(2)3σ原则:适用于服从正态分布或者近似正态分布的数据。μ - 3 σ < x < μ + 3σ,为正常区间数据,即P(|x - μ|) <= 0.003范围内的点为离群点。其中σ 为标准差,μ 为均值。

  2. 删除异常值: 如果异常值对分析没有价值或可能引起严重偏差,可以考虑删除它们。但在删除之前,务必确认这不会丧失重要信息。

  3. 视为缺失值:利用处理缺失值的方法来处理。这一方法的好处是能够利用现有变量的信息,来填补异常值。需要注意的是,将该异常值作为缺失值处理,需要根据该异常值(缺失值)的特点来进行,针对该异常值(缺失值)是完全随机缺失、随机缺失还是非随机缺失的不同情况进行不同处理。

  4. 平均值修正:如果数据的样本量很小的话,也可用前后两个观测值的平均值来修正该异常值。这其实是一种比较折中的方法,大部分的参数方法是针对均值来建模的,用平均值来修正,优点是能克服了丢失样本的缺陷,缺点是丢失了样本“特色”

参考:

https://zhuanlan.zhihu.com/p/51131210

https://zhuanlan.zhihu.com/p/358944859

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值