特征工程笔记(二) 异常值检测及处理的基本方法

本文介绍了异常值处理在机器学习中的重要性,并详细阐述了单变量异常检测方法,包括常识判断、均值/标准差法、四分位距IQR方法和MAD法。接着,探讨了多变量异常检测,如DBSCAN聚类和ISOLATION FOREST孤立森林法,提供了相关原理和代码示例。
摘要由CSDN通过智能技术生成

一、异常处理的必要性

某些能够忽略异常值的算法,可以不做异常处理,如决策树模型
某些根据变量权重或是距离构建模型的算法做异常处理具有重要意义

 

二、单变量异常常用检测方法

单变量异常检测只针对单一特征,找出该特征下的样本异常值

(1)根据常识或业务知识

根据某些变量的相关常识或是业务知识,为变量设定范围值,视超出限定范围的为异常值
举例:某些限定正数变量,出现负值即为异常值。
特点:较为灵活,识别准确度高,需要一定的业务知识

(2)均值/标准差法

假设分布服从正态/高斯分布,根据3σ原则可进行异常值筛选,判定落在μ-3σ与μ+3σ之外的值为异常值
特点:适用于服从正态/高斯分布的变量,对极值本身敏感
代码

'''
	data:你的DataFram数据集
	col_name:列名
	threshold:指定的标准差倍数
	若为异常值则置为空值
'''
	threshold = 3
    Upper_fence = data[col_name].mean() + threshold * data[col].std()
    Lower_fence = data[col_name].mean() - threshold * data[col].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凡凡凡凡-

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值