Pandas数据分析②——数据清洗（重复值/缺失值/异常值）

最新推荐文章于 2025-03-19 16:36:50 发布

数据小斑马

最新推荐文章于 2025-03-19 16:36:50 发布

阅读量3.6w

点赞数 62

分类专栏： Pandas 文章标签： pandas数据清洗 pandas去除重复值 pandas缺失值处理 pandas异常值处理 pandas数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cindy407/article/details/90762774

版权

本文详细介绍了Pandas进行数据清洗的三个步骤：重复值处理、缺失值处理和异常值处理。讨论了如何删除重复值，填充或删除缺失值，以及使用描述性统计和图表定位并处理异常值。内容涵盖了各种处理方法和技术，是进行数据预处理的重要参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas系列目录：
Pandas数据分析①——数据读取（CSV/TXT/JSON)
Pandas数据分析③——数据规整1（索引和列名调整/数据内容调整/排序）
Pandas数据分析④——数据规整2（数据拼接/透视)
Pandas数据分析⑤——数据分组与函数使用（Groupby/Agg/Apply/mean/sum/count)
Pandas数据分析⑥——数据分析实例（货品送达率与合格率/返修率/拒收率）
Pandas数据分析⑦——数据分析实例2（泰坦尼克号生存率分析）

数据清洗分为三步（`文末有大礼赠送`）：

重复值处理——删除（有几个相同就删除还是全部得相同）
缺失值处理——删除，填充（均值，众数，中位数，前后相邻值），插值（拉格朗日插值，牛顿插值）
异常值处理——describe进行描述性分析+散点图+箱型图定位异常值，处理方法：删除，视为缺失值

一、重复值处理

① 先用duplicated()方法进行逻辑判断，确定是否有重复值

data = pd.read_csv("data.csv",encoding='gbk')
print(data.duplicated().value_counts())

在这里插入图片描述
② 再用duplicates（subset,keep,inplace)方法对某几列下面的重复行删除
subset:以哪几列作为基准列，判断是否重复，如果不写则默认所有列都要重复才算
keep: 保留哪一个，fist-保留首次出现的，last-保留最后出现的，False-重复的一个都不保留，默认为first
inplace: 是否进行替换，最好选择False，保留原始数据，默认也是False

data.drop_duplicates(subset=["订单号","订单行"],keep='first',i

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。