pandas 缺失值 异常值处理

缺失值

缺失值的判定

在这里插入图片描述

pd.isnull()

在这里插入图片描述

pd.notnull()

在这里插入图片描述

#### pd.notnull()
错误筛选

在这里插入图片描述

缺失值的处理

pd.dropna()

在这里插入图片描述

在这里插入图片描述

pd.drop_duplicates()
df = pd.DataFrame({'color':['red','blue','red','red'],'price':[10,15,20,10]})
display(df)

在这里插入图片描述

如果使用df3 = pd.concat([df1,df2],axis = 1)生成新的DataFrame,新的df3中columns相同,使用drop_duplicates()会出问题

# 按color这一列, 清除重复数据
df.drop_duplicates('color')

在这里插入图片描述

pd.fillna()

t.mean()会求当前所有列为nan的平均值
在这里插入图片描述

在这里插入图片描述

异常值

异常值处理

处理标准:根据正太分布 将过大或者过小的数据删除

即x - x_mean > 3σ该值异常值

σ:std标准差

x_mean:平均值

import pandas as pd
import numpy as np


df = pd.DataFrame(np.random.randn(100000,3),columns = ['red','green','blue'])
cond = df.abs() - df.mean() > 3*df.std()
cond.sum()  # 小于3σ标准的总和
# 让小于3σ标准的那些作为条件 即布尔索引
# 借助any()函数, 测试是否有True,有一个或以上返回True,反之返回False
cond = cond.any(axis = 1)
df2 = df.drop(labels=df[cond].index)

在这里插入图片描述

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值