离群点检测方法_「Python数据分析基础」: 异常值检测和处理

最新推荐文章于 2024-06-06 07:00:00 发布

weixin_39679468

最新推荐文章于 2024-06-06 07:00:00 发布

阅读量881

点赞数

文章标签：离群点检测方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39679468/article/details/112701041

版权

本文介绍了数据清洗中的异常值检测和处理，包括基于统计、3∂原则、箱型图等多种方法，并探讨了异常值处理的策略，如删除、视为缺失值或平均值修正。

摘要由CSDN通过智能技术生成

本篇给大家分享数据清洗中的一个常见问题：异常值检测和处理。

1

什么是异常值？

在机器学习中，异常检测和处理是一个比较小的分支，或者说，是机器学习的一个副产物，因为在一般的预测问题中，模型通常是对整体样本数据结构的一种表达方式，这种表达方式通常抓住的是整体样本一般性的性质，而那些在这些性质上表现完全与整体样本不一致的点，我们就称其为异常点，通常异常点在预测问题中是不受开发者欢迎的，因为预测问题通产关注的是整体样本的性质，而异常点的生成机制与整体样本完全不一致，如果算法对异常点敏感，那么生成的模型并不能对整体样本有一个较好的表达，从而预测也会不准确。

从另一方面来说，异常点在某些场景下反而令分析者感到极大兴趣，如疾病预测，通常健康人的身体指标在某些维度上是相似，如果一个人的身体指标出现了异常，那么他的身体情况在某些方面肯定发生了改变，当然这种改变并不一定是由疾病引起(通常被称为噪音点)，但异常的发生和检测是疾病预测一个重要起始点。相似的场景也可以应用到信用欺诈，网络攻击等等。

2

异常值的检测方法

一般异常值的检测方法有基于统计的方法，基于聚类的方法，以及一些专门检测异常值的方法等，下面对这些方法进行相关的介绍。

1. 简单统计

如果使用pandas，我们可以直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量)，不过统计数据为连续型的，如下：

df.describe()

或者简单使用散点图也能很清晰的观察到异常值的存在。如下所示：

最低0.47元/天解锁文章

weixin_39679468

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。