Pandas-去除重复项函数drop_duplicates()

最新推荐文章于 2024-06-18 22:19:25 发布

ckSpark

最新推荐文章于 2024-06-18 22:19:25 发布

阅读量2.5w

点赞数 11

分类专栏： python学习 DataFrame Pandas

本文链接：https://blog.csdn.net/MsSpark/article/details/83451491

版权

python学习同时被 3 个专栏收录

29 篇文章 40 订阅

订阅专栏

Pandas

6 篇文章 1 订阅

订阅专栏

DataFrame

1 篇文章 0 订阅

订阅专栏

一、drop_duplicates函数用途

pandas中的drop_duplicates()函数可以通过SQL中关键字distinct的用法来理解，根据指定的字段对数据集进行去重处理。

二、drop_duplicates()函数的具体参数

用法：
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
参数说明

参数	说明
subset	根据指定的列名进行去重，默认整个数据集
keep	可选{‘first’, ‘last’, False}，默认first，即默认保留第一次出现的重复值，并删去其他重复的数据，False是指删去所有重复数据。
inplace	是否对数据集本身进行修改，默认False

三、drop_duplicates用法举例

根据指定字段进行去重，保留第一次出现的数据

import pandas as pd
#创建数据框
df=pd.DataFrame({
    'a':[1,2,4,3,3,3,4],
    'b':[2,3,3,4,4,5,3]
})
print('去重前：\n',df)

#根据字段a进行去重，保留第一次出现的数据
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重后：\n',df)

>>>
去重前：
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
4  3  4
5  3  5
6  4  3
去重后：
    a  b
0  1  2
1  2  3
2  4  3
3  3  4

ckSpark

关注

11
点赞
踩
75

收藏

觉得还不错? 一键收藏
1
评论
Pandas-去除重复项函数drop_duplicates()

一、drop_duplicates函数用途pandas中的drop_duplicates()函数可以通过SQL中关键字distinct的用法来理解，根据指定的字段对数据集进行去重处理。二、drop_duplicates()函数的具体参数用法：DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)...
复制链接

扫一扫

专栏目录