使用pandas进行数据清洗

ak2111

已于 2024-04-03 12:19:58 修改

阅读量1.5k

点赞数 30

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： pandas jupyter python

于 2024-03-24 17:11:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ak2111/article/details/136990716

本文介绍了在数据预处理阶段如何清洗原始数据中的噪点数据，包括清洗空值（如删除、填充）、处理重复值以及识别并可能采取措施处理异常值。主要讨论了使用Pandas库的函数如dropna和duplicated，以及标准差法和MAD法进行异常值检测的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

采集到原始的数据中会存在一些噪点数据，噪点数据是对分析无意义或者对分析起到偏执作用的数据。
如何清洗：
- 清洗空值/缺失值
- 清洗重复值
- 清洗异常值

import pandas as pd
from pandas import DataFrame,Series
import numpy as np

pandas处理空值操作

isnull
notnull
any
all
dropna
fillna

df = DataFrame(data=np.random.randint(0,100,size=(7,5)))
df.iloc[0,3] = np.nan
df.iloc[3,3] = None
df.iloc[2,2] = np.nan
df.iloc[5,3] = np.nan
df
在这里插入图片描述

缺失值的处理方案：
- 1.可以将空值对应的行/列进行删除
- 2.可以将空值进行填充
将空值对应的行进行删除

ret = df.isnull() #可以通过isnull判断df中是否存在空数据
ret
在这里插入图片描述

#监测ret中哪些行存在True（表示df中哪些行存在空值）
ex = ret.any(axis=1) #axis=1表示轴向为行
#any可以对ret表格中的行进行是否存在True的判定，如果存在True，则给该行返回一个True，否则返回False
ex
在这里插入图片描述

#整合后的结果；在df中True对应的行是存在空值
ex = df.isnull().any(axis=1)
ex
在这里插入图片描述

ex = df.notnull().all(axis=1) #all判断每一行中是否全部为True，如果全部为True，则给该行返回True，否则返回False
ex

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ak2111 你的鼓励将是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。