一、drop_duplicates函数用途
pandas中的drop_duplicates()函数可以通过SQL中关键字distinct的用法来理解,根据指定的字段对数据集进行去重处理。
二、drop_duplicates()函数的具体参数
-
用法:
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False) -
参数说明
参数 | 说明 |
---|---|
subset | 根据指定的列名进行去重,默认整个数据集 |
keep | 可选{‘first’, ‘last’, False},默认first,即默认保留第一次出现的重复值,并删去其他重复的数据,False是指删去所有重复数据。 |
inplace | 是否对数据集本身进行修改,默认False |
三、drop_duplicates用法举例
- 根据指定字段进行去重,保留第一次出现的数据
import pandas as pd
#创建数据框
df=pd.DataFrame({
'a':[1,2,4,3,3,3,4],
'b':[2,3,3,4,4,5,3]
})
print('去重前:\n',df)
#根据字段a进行去重,保留第一次出现的数据
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重后:\n',df)
>>>
去重前:
a b
0 1 2
1 2 3
2 4 3
3 3 4
4 3 4
5 3 5
6 4 3
去重后:
a b
0 1 2
1 2 3
2 4 3
3 3 4