python中drop用法去重_如何使用drop_duplicates进行简单去重（入门篇）

最新推荐文章于 2024-07-08 22:12:38 发布

weixin_39991055

最新推荐文章于 2024-07-08 22:12:38 发布

阅读量5k

点赞数 2

文章标签： python中drop用法去重

本文介绍了在Python的pandas库中如何使用drop_duplicates函数进行数据去重，包括函数的主要参数如subset、keep和inplace，以及如何对整个数据表和指定列进行去重操作，展示了不同参数设置下的去重效果。

摘要由CSDN通过智能技术生成

什么是去重呢？

简单来说，数据去重指的是删除重复数据。在一个数字文件集合中，找出重复的数据并将其删除，只保存唯一的数据单元。在我们的数据预处理过程中，这是一项我们经常需要进行的操作。

去重有哪些好处？节省存储空间

提升写入性能

提高模型精度

今天我们就来简单介绍一下，在pandas中如何使用drop_duplicates进行去重。

一、函数体及主要参数

函数体：

df.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

主要参数：

subset：输入要进行去重的列名，默认为None

keep：可选参数有三个：‘first’、 ‘last’、 False，默认值 ‘first’。其中，first表示：保留第一次出现的重复行，删除后面的重复行。

last表示：删除重复项，保留最后一次出现。

False表示：删除所有重复项。

inplace：布尔值，默认为False，是否直接在原数据上删除重复项或删除重复项后返回副本。

(inplace参数在很多时候都需要用到，是一个十分常见的参数，忘记的同学可以看下面)侦探L：如何正确在pandas里使用inplace参数zhuanlan.zhihu.com

二、实例操作

首先还是一样&#x

最低0.47元/天解锁文章

weixin_39991055

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python中drop用法去重_如何使用drop_duplicates进行简单去重（入门篇）

什么是去重呢？简单来说，数据去重指的是删除重复数据。在一个数字文件集合中，找出重复的数据并将其删除，只保存唯一的数据单元。在我们的数据预处理过程中，这是一项我们经常需要进行的操作。去重有哪些好处？节省存储空间提升写入性能提高模型精度今天我们就来简单介绍一下，在pandas中如何使用drop_duplicates进行去重。一、函数体及主要参数函数体：df.drop_duplicates(subset...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。