异常值识别方法-以R语言为例

正确的数据分析结果有赖于有效的数据。实际获取得到的原始数据,往往可能存在缺失值、异常值、重复值等问题数据,为了保证数据的质量需要进行数据清洗操作对问题数据进行识别,具体如何操作我们以r语言为例进行探讨。

首先针对已有数据进行缺失值的识别,绘图如下
在这里插入图片描述
对识别得到的缺失值进行处理,这里直接进行删除。

采用单变量识别的方法识别异常值,目前处理异常值的单变量相关指南往往推荐鲁棒方法,可采用robust z score (基于中位数绝对偏差)、iqr(箱线图)以及置信区间相关方法
在这里插入图片描述
采用多变量识别方法,如mcd,lof 等等这里选择 mahalanobis_robust方法
在这里插入图片描述
同样有些模型本身就可以用来进行异常值识别如孤立森林,knn等。下面给出结果示意,仅供参考
在这里插入图片描述

  • 6
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不上心的马小跳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值