异常值的处理

最近看到数据分析师秋招时关于异常值处理的问题,小白上网搜了以下,特在此做一下总结。

 何为异常值处理,小白要分异常值和处理两步来介绍。

异常值:对整体样本数据结构表达时,通常抓住整体样本一般性的性质,而在这些性质上与样本整体表达不一致的点,称其为异常点。

异常值有好有坏,我们可以疾病预测,信用欺诈,网络攻击等。

处理:包括检测和修正。检测共有7种,包括

1)简单统计 

df.describe()

或者散点图

2.正太分布3∂原则

3.箱型图 ;四分位距(IQR)对异常值进行检测,也叫Tukey‘s test

4.基于模型的检测

5.基于近邻度的离群点检测

6 基于密度的离群点检测

7 基于聚类的离群点检测

8 专门的离群点检测

处理:

1.删除含有异常值的记录(是否删除根据实际情况考虑)

2 将异常值视为缺失值,利用缺失值的处理方法进行处理

3 平均值修正(前后两个观测值的平均值)

4 不处理(直接在具有异常值的数据集上进行挖掘)

总结:

 以上是对异常值检测和处理方法的汇总,具体情况需要根据业务进行判断。

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值