Python 去除重复行数据

最新推荐文章于 2024-05-09 06:15:24 发布

一只菜GISER

最新推荐文章于 2024-05-09 06:15:24 发布

阅读量4.2k

点赞数 3

分类专栏：菜鸟的代码记录文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_39419220/article/details/115723953

版权

菜鸟的代码记录专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Python学习笔记 --文件去重

1.所有字段相同去重

df = pd.read_csv(file_in)
df = df.drop_duplicates(subset=None, keep='first', inplace=False)
# df.to_csv(file_out,index = False)

参数解释

subset：列标签，可选

keep： {‘first’, ‘last’, False}, 默认值 ‘first’
first：保留第一次出现的重复项。
last：删除重复项，仅保留最后一次出现的重复项

inplace：布尔值，默认为False，是否删除重复项或返回副本
False：删除所有重复项。

2.仅对某个（些）字段去重

df = pd.read_csv(file_in)
df = df.drop_duplicates(['id'])  # id为列名
df = df.drop_duplicates([subset=['A','B']]) # A/B两列
# df.to_csv(file_out,index = False)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只菜GISER

关注关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
Python 去除重复行数据

Python学习笔记 --文件去重1.所有字段相同去重df = pd.read_csv(file_in)df = df.drop_duplicates(subset=None, keep='first', inplace=False)# df.to_csv(file_out,index = False)参数解释subset：列标签，可选keep： {‘first’, ‘last’, False}, 默认值 ‘first’first：保留第一次出现的重复项。last：删除
复制链接

扫一扫