Python学习-数据异常检测

数据科学中,在对数据分析前,必须要多数据进行处理。将非正常的、错误的数据输入到算法中会导致不好的结果。所以异常的检测及处理为非常重要的一环。

1.1 单变量异常检测

        在处理单变量异常时,有一条准则:极端值可以当做异常值

       1.  IQR(四分位距,75分位与25分位的差)。第一种是比25分位值减去IQR*1.5小的值;第二种是比75分为大IQR*1.5的值

       2. Z-scores 得分绝对值大于3的观测值可认为是异常值

先用箱图来直观观察一下每个特征的分布情况

from sklearn.datasets import load_boston 
import numpy as np
import pandas as pd
from sklearn import preprocessing

data=load_boston()
boston=pd.DataFrame( data.data)
boston.columns=data['feature_names']
boston.pop('CHAS')#remove column 
normolized_data=preprocessing.StandardScaler().fit_transform(boston)
boston.boxplot(sym='r',vert=False,patch_artist=True,meanline=False,showmeans=True)


箱图能非常直观的观察数据间离散程度、异常值

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值