数据预处理--01 缺失值处理\异常值处理

本文探讨了数据预处理中的关键步骤——缺失值和异常值处理。介绍了如何通过`.isnull()`和`.notnull()`判断缺失值,使用`.dropna()`删除,用`.fillna()`和`.replace()`填充,以及多种插补方法。异常值分析涉及3σ原则和箱型图分析,提供了异常值的识别和处理方法。
摘要由CSDN通过智能技术生成

数据预处理

数据常见的预处理方法 (缺失值处理, 异常值剔除,归一化,离散化 等)
这一篇文章主要介绍缺失值处理\异常值处理 主要是因为他们有比较相似的处理流程.

缺失值处理

包括记录缺失\字段信息缺失, 对数据分析有较大的影响, 导致不确定性增加.
选用哪种方法需要较多的实践经验.
缺失值处理方法:
删除记录\数据插补\不处理

01 判定是否有缺失值 .isnull() .notnull()

s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99])
df = pd.DataFrame({
   'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190],
                  'value2':['a','b','c','d','e',np.nan,np.nan,'f','g',np.nan,'g']})
# 判定是否有缺失值, 返回True  False
print(s.isnull())
print(df.isnull())
print(df["value2"].isnull())

如果要知道有多少条数据是有null值的
df["value2"].isnull().sum()  返回True的求和
如果要查询所有列的缺失值情况
df.isnull().sum() 会得到每一列缺失值的总数

在这里插入图片描述
在这里插入图片描述

02 筛选非缺失值

# 查看缺失项  意义不大
print(df[df["value1"].isnull()])

# 筛选非缺失值 用的比较多
print(df[df["value1"].notnull()])
print(df[df["value1"].isnull()==False])

在这里插入图片描述
在这里插入图片描述

03 删除缺失值 dropna

可用于Series DataFrame, 存在inplace参数, 为True的话, 改变自身值.

s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99])
df = pd.DataFrame({
   'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190],
                  'value2':
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值