Pandas DataFrame 去重

最新推荐文章于 2025-04-07 21:15:10 发布

原创最新推荐文章于 2025-04-07 21:15:10 发布 · 6.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据 #as #pd

pandas 专栏收录该内容

82 篇文章

订阅专栏

本文介绍了使用Python的Pandas库进行数据去重的方法，包括如何判断数据列中的重复项及如何去除这些重复项，适用于处理表格型数据集。

In [1]: import pandas as pd
   ...: a1=[1,2,3,4]
   ...: a2=[1,1,2,3]
   ...: df=pd.DataFrame({"a1":a1,"a2":a2})

In [2]: df.duplicated("a2") # 返回a2列是否重复，第一次出现重复的数据为False，其余为True
Out[2]: 
0    False
1     True
2    False
3    False
dtype: bool

In [3]: df.drop_duplicates("a2") # 直接去掉重复数据
Out[3]: 
   a1  a2
0   1   1
2   3   2
3   4   3