pandas 笔记：Drop_duplicates

UQI-LIUWJ

已于 2023-10-23 16:04:35 修改

阅读量211

点赞数

分类专栏： python库整理文章标签： pandas 笔记 python

于 2023-05-20 15:05:01 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/130781556

版权

python库整理专栏收录该内容

325 篇文章 47 订阅

订阅专栏

1 方法介绍

去除Pandas中的重复列

DataFrame.drop_duplicates(
    subset=None, 
    *,
    keep='first', 
    inplace=False, 
    ignore_index=False)

2 参数说明

subset	只考虑subset中提到的这些列是不是重复的，其他列重复也不用考虑默认：所有列
keep	决定重复的那些行怎么处置有三个选项： 'first':除了第一次出现的重复行，其他的都去掉 'last'：除了最后一次出现的重复行，其他的都去掉 False:所有重复行都去掉
inplace	是否替换原DataFrame
ignore_index	如果为True，重新排index

3 举例

3.0 原始数据

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

3.1 基本用法

df.drop_duplicates()

3.2 subset

df.drop_duplicates(subset='style')

3.3 keep

df.drop_duplicates(keep='last')

df.drop_duplicates(keep=False)

4 同时保留第一条和最后一条duplicate记录

由于keep只能在first和last中选，所以如果想保留第一和最后一条，那么就需要额外的操作：

还是之前的数据：

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

keep为first和last各进行一次

df1=df.drop_duplicates('brand','first')
df1
'''
	brand	style	rating
0	Yum Yum	cup	    4.0
2	Indomie	cup	    3.5
'''

df2=df.drop_duplicates('brand','last')
df2
'''
	brand	style	rating
1	Yum Yum	cup	    4.0
4	Indomie	pack	5.0
'''

concat+重新排序

df_d=pd.concat([df1,df2])
df_d
'''
	brand	style	rating
0	Yum Yum	cup	    4.0
2	Indomie	cup	    3.5
1	Yum Yum	cup	    4.0
4	Indomie	pack	5.0
'''

df_d=df_d.sort_index()
df_d
'''

brand	style	rating
0	Yum Yum	cup	4.0
1	Yum Yum	cup	4.0
2	Indomie	cup	3.5
4	Indomie	pack	5.0
'''