数据异常值检测和过滤

本文介绍了数据异常值的检测和过滤方法,包括使用describe函数查看统计量,处理空值和重复值。对于异常值,通过数值超过3倍标准差或基于四分位数的方法进行判断,并结合业务场景确定。同时,利用std函数计算标准差,筛选并删除异常数据。
摘要由CSDN通过智能技术生成

数据异常值检测和过滤

查看数据信息
info
head
describe

使用describe()函数查看每一列的描述性统计量
空值处理:isnull()判空 fillna()填充 dropna()删除
重复值处理:duplicated()查看重复行 drop_duplicates() 删除重复行
异常值处理:

  1. (整列数据像转换成标准的正态分布) 数值 > 3*std
  2. 离群点:Q1 Q3 IQR=Q3-Q1 UP_LEVEL=Q3+1.5IQR BOOTOM_LEVEL=Q1 -1.5IQR
  3. 结合业务场景进行异常值判定

使用std()函数可以求得DataFrame对象每一列的标准差。
获取异常数据的索引
根据每一列或行的标准差,对DataFrame元素进行过滤
借助any()或all()函数,测试是否有True,有一个或以上返回True,反之返回False
对每一列应用筛选条件,去除标准差太大的数据
删除特定索引df.drop(labels,inplace=True)

df.drop(labels=df
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值