python异常值检测和处理_【Python实战】单变量异常值检测

最新推荐文章于 2024-05-08 18:30:52 发布

生锈快刀

最新推荐文章于 2024-05-08 18:30:52 发布

阅读量1.8k

点赞数

文章标签： python异常值检测和处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42510783/article/details/113662194

版权

【Python实战】单变量异常值检测异常值检测是数据预处理阶段重要的环节，这篇文章介绍下对于单变量异常值检测的常用方法，通过Python代码实现。一、什么是异常值异常值是在数据集中与其他观察值有很大差距的数据点，它的存在，会对随后的计算结果产生不适当的影响，因此检测异常值并加以适当的处理是十分必要的。二、异常值的处理异常值并不都是坏的，了解这一点非常重要。只是简单地从数据中删除异常值，而不考虑它们...

摘要由CSDN通过智能技术生成

【Python实战】单变量异常值检测

异常值检测是数据预处理阶段重要的环节，这篇文章介绍下对于单变量异常值检测的常用方法，通过Python代码实现。

一、什么是异常值

异常值是在数据集中与其他观察值有很大差距的数据点，它的存在，会对随后的计算结果产生不适当的影响，因此检测异常值并加以适当的处理是十分必要的。

二、异常值的处理

异常值并不都是坏的，了解这一点非常重要。只是简单地从数据中删除异常值，而不考虑它们如何影响结果的话，可能会导致灾难。

“异常值不一定是坏事。这些只是与其他模式不一致的观察。但事实上异常值非常有趣。例如，如果在生物实验中，某只老鼠没有死亡而其他老鼠都死了，去了解为什么将会非常有趣。这可能会带来新的科学发现。因此，检测异常值非常重要。” —— Pierre Lafaye de Micheaux，统计师

对于异常值，一般有如下几种处理：

删除含有异常值的记录(是否删除根据实际情况考虑)

将异常值视为缺失值，利用缺失值的处理方法进行处理

平均值修正(前后两个观测值的平均值)

不处理(直接在具有异常值的数据集上进行挖掘)

三、异常值的类型

异常值有两种类型：单变量和多变量(Univariate and Multivariate)。单变量异常值是仅由一个变量中的极值组成的数据点，而多变量异常值是至少两个变量的组合异常分数。假设您有三个不同的变量 - X，Y，Z。如果您在三维空间中绘制这些变量的图形，它们应该形成一种云。位于此云之外的所有数据点都将是多变量异常值。

举个例子：做客户分析，发现客户的年平均收入是80万美元。但是&

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python异常值检测和处理_【Python实战】单变量异常值检测

【Python实战】单变量异常值检测异常值检测是数据预处理阶段重要的环节，这篇文章介绍下对于单变量异常值检测的常用方法，通过Python代码实现。一、什么是异常值异常值是在数据集中与其他观察值有很大差距的数据点，它的存在，会对随后的计算结果产生不适当的影响，因此检测异常值并加以适当的处理是十分必要的。二、异常值的处理异常值并不都是坏的，了解这一点非常重要。只是简单地从数据中删除异常值，而不考虑它们...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。