特征工程总结(一):异常值检验及处理

本文总结了异常值的定义及其检验方法,包括简单统计分析、基于高斯分布和标准偏差的原则、箱型图分析、距离判断以及高级算法如LOF和iForest。在处理异常值时,提出了删除、视为缺失值、平均值修正和不处理等策略,强调需视情况决定。
摘要由CSDN通过智能技术生成

一.定义

           异常值,即在数据集中存在不合理的值,又称离群点。

二.检验

(1)简单统计分析:对属性值进行一个描述性(经验)的统计,从而看出哪些值是不合理的。例如年龄,年龄的区间是【0,100】,如果样本中的年龄不在这个区间内,那么这个样本则被视为异常值。

(2)基于高斯分布的异常点检测:根据已有数据集,建立高斯分布的模型,通过新数据和已知分布的差异进行判断是否异常值。

(3)基于标准偏差(3δ原则)的异常值检测(高斯分布差异的一种):一般适用于服从正太分布的数据,即异常值被定义为观测值和平均值的偏差超过3倍标准偏差的值。

                                                           P(|x-μ|>3δ) <= 0.003

当数据不服从正太分布的时候,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要经验和实际情况来判定。

(4)箱型图分析

箱型图提供了一个识别异常值的标准,即大于或小于设定的上下界的数值即为异常值。

                        Q1:上四分位数

                        Q2:下四分位数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值