【Python数据分析】Pandas_去重

最新推荐文章于 2025-02-14 06:45:28 发布

Root_Smile

最新推荐文章于 2025-02-14 06:45:28 发布

阅读量452

点赞数 4

分类专栏：【Python数据分析】文章标签： python 数据分析 pandas

本文链接：https://blog.csdn.net/qq_45951891/article/details/139776440

版权

Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates()，本节对该函数的用法做详细介绍。

函数格式

drop_duplicates()函数的语法格式如下：

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：

subset：表示要进去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

实际应用

首先创建一个包含有重复值的 DataFrame 对象，如下所示：

import pandas as pd
data={
          
    'A':[1,0,1,1],    
    'B':[0,2,5,0],    
    'C':[4,0,4,4],   
    'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
print(df)

输出结果：

1) 默认保留第一次出现的重复项

import pandas as pd
data={
   
    'A':[1,0,1,1],
    'B':

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Root_Smile

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pyhton科学计算工具Pandas（八）—— 数据的去重及替换

GengPeng的博客

03-28

3472

Pyhton科学计算工具Pandas（七）—— 数据的去重及替换去重 .duplicated() # 去重 .duplicated() s = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5]) print(s.duplicated(keep='first')) print(s[s.duplicated() == False]) print('-----')...

Pandas去重——《Python数据分析库Pandas》

Python老吕的博客

05-24

1103

默认情况下，方法会保留重复项中的第一个出现的项。如果你想保留最后一个出现的项，可以设置keep参数为'last'# 保留重复项中的最后一个# 打印保留最后一个重复项后的DataFrameprint("保留最后一个重复项后的DataFrame:")Pandas的方法是一个强大而灵活的工具，可以帮助我们轻松处理数据集中的重复项。通过合理设置参数和结合其他方法，我们可以实现各种复杂的数据清洗和转换任务。然而，在使用该方法时，我们也需要注意一些潜在的问题和注意事项，以确保数据的准确性和完整性。

参与评论您还未登录，请先登录后发表或查看评论

头歌平台python数据分析——（6）数据清洗

qq_51657387的博客

05-09

6734

数据清洗

Pandas Series 如何去除重复数据？

热门推荐

张某人ER的技术博客 ==学习&&分享==

08-27

16万+

python pandas dataframe 去重函数

Python数据分析_Pandas_数据分析入门_3

AGI爱好者_数仓&可视化&数据分析工程师_Vae’伯乐‘

12-25

1023

DataFrame读写文件DataFrame加载部分数据DataFrame分组聚合计算DataFrame常用排序方式DataFrame案例-链家数据分析。

【Python数据分析】Pandas_分类对象

qq_45951891的博客

06-29

534

通常情况下，数据集中会存在许多同一类别的信息，比如相同国家、相同行政编码、相同性别等，当这些相同类别的数据多次出现时，就会给数据处理增添许多麻烦，导致数据集变得臃肿，不能直观、清晰地展示数据。通过上述示例，您可能会注意到，虽然传递给 Series 四个元素值，但是它的类别为 3，这是因为 a 的类别存在重复。上述示例中，第二个参数值表示类别，当列表中不存在某一类别时，会自动将类别值设置为 NA。对已经分类的数据使用 describe() 方法，您会得到和数据统计相关的摘要信息。命令可以获取对象的类别信息。

python series去重_python数据分析：Pandas之Series

weixin_39965075的博客

11-21

1373

内容目录Series简介Series的创建方式Series索引和切片Series基本操作1 Series简介Pandas 是python的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。pandas的两大主要数据结构 Series和DateFrame，其中Series 是带标签的一维数组，可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标...

python pandas dataframe 去重函数的具体使用

09-16

在Python数据分析领域，Pandas库是非常重要的工具，其DataFrame对象是处理二维表格数据的主要方式。在实际工作中，我们经常会遇到需要去除重复数据的情况，这时Pandas的`drop_duplicates`函数就显得尤为关键。本文将...

Python小技巧--pandas多样化去重【实践】

故事猝不及防，发量秃如其来

09-02

3900

pandas数据处理之数据去重，pandas.DataFrame.drop_duplicates()与 pandas.DataFrame.duplicated()，多列去重以及互换列去重

python pandas 之数据去重

xiaoyurainzi的博客

07-12

810

pandas 数据去重

pandas根据某列去重

向日葵的专属太阳

11-21

3万+

pandas（文本去重）根据某列删除重复行方法一： unique()函数，该函数用于获取Series对象的唯一值。这种方式对于数据只有一列的较为方便，否则，就要添加该列到原dataframe中。 import pandas as pd dic = {'name':['a', 'b', 'c', 'd'], 'comment':['abc', '真棒', '真棒', '123']} df = pd.DataFrame(dic) df Out[6]: name comment 0 a

python数据去重（pandas）

qq_39012566的博客

08-06

2万+

python3数据去重（pandas）去重操作是我们处理数据的时候经常遇到的！接下来告诉大家，仅仅用几行代码就可以实现的去重操作这边会用到pandas库这是一个非常非常强大的库，这里面有着处理数据特别简单方便的方法；下来介绍到就是用于数据去重的drop_duplicate方法这个方法是对DataFrame格式的数据，去除特定列下面的重复行。返回DataFrame格式的数据。这个方法里...

Python进阶：Pandas -- 清理重复数据

创作高质量博文，分享知识，共同进步！

02-27

3910

🌵 深入探索Python进阶之路，Pandas库成为我们清理重复数据的得力助手！🔥 在数据处理的旅程中，重复数据常常成为我们的绊脚石。但是，借助Pandas的`drop_duplicates()`函数，我们可以轻松地去重，让数据更加整洁！🔍 在这个过程中，我们深入了解了`drop_duplicates()`的参数，如`subset`、`keep`等，以便更灵活地处理数据。📕 回顾与收获时刻，我们感慨Pandas的强大与便捷，同时也期待与您共同成长，探索更多数据处理的奥秘！🤗

python去重pandas_【Python数据分析】pandas去重和替换

weixin_39699121的博客

02-10

121

[toc]1.去重复:duplicatedimport pandas as pds = pd.Series([1,1,1,1,2,2,2,3,3,4,4,5,6])# 通过duplicated判断是否重复print(s.duplicated())# 通过布尔判断，得到不重复的值print(s[s.duplicated() == False])# 移除重复drop_duplicatess_re = ...

pandas去重函数

what_how_why2020的博客

07-14

1088

pandas去重