异常值检测-3σ法提交 代码注释

背景信息里面都给了相应的答案,但我们可以多了解一下代码的含义,而不是简单的复制粘贴

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import numpy as np

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1:
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])


cols = '2008/10/20,2008/11/20,2008/12/20'.split(',')
x = data[cols]

########## Begin ########## 
# 创建一个空的 pandas DataFrame 对象,用于后续存储异常值检测结果
a=pd.DataFrame()
for i in x.columns:
# 计算每个特征(列)的标准分数 (z-score),即 (观测值 - 平均值) / 标准差
    z=(x[i]-x[i].mean())/x[i].std()
# 判断差值的绝对值是否大于3,将判断结果赋值给 DataFrame a 的对应列
# 这里,大于3通常被视作可能的异常值
    a[i]=abs(z)>3
 
# 统计各列异常值个数 
print(a.sum())
# 删除异常值
# 使用布尔型 DataFrame a 来筛选数据子集 x,保留非异常值
# ~a 会对 DataFrame a 中的布尔值取反,使得 True 变为 False,False 变为 True
# 即保留原数据中那些在 a 中标记为非异常值的位置,x中异常值会被标记成NAN
# 然后调用 dropna() 方法删除包含缺失值(NAN)的行
x[~a].dropna()


########## End ########## 

df.dropna()  #将所有含有NAN项的row删除

 在这一关中去掉“.dropna()”也能过,上一关中结尾没加上“.dropna()”,也成功了,目前看来应该不影响,可能是系统自动处理了。

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值