python数据框去重_【Python】基于某些列删除数据框中的重复值

本文介绍了Python中使用pandas的drop_duplicates函数对数据框进行去重的方法,包括按照单一列和多列去重,以及如何通过keep参数选择保留重复项的策略。此外,还展示了在原数据框上进行操作的inplace参数的用法。
摘要由CSDN通过智能技术生成

Python按照某些列去重,可用drop_duplicates函数轻松处理。本文致力用简洁的语言介绍该函数。

一、drop_duplicates函数介绍

drop_duplicates函数可以按某列去重,也可以按多列去重。具体语法如下:

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

代码解析:

DataFrame:待去重的数据框。

subset:用来指定特定的列,根据指定的列对数据框去重。默认值为None,即DataFrame中一行元素全部相同时才去除。

keep:对重复值的处理方式,可选{‘first’, ‘last’, ‘False’}。默认值first,即保留重复数据第一条。若选last为保留重复数据的最后一条,若选False则删除全部重复数据。

inplace:是否在原数据集上操作。默认值False,即把原数据copy一份,在copy数据上删除重复值,并返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重,没有返回值。

二、加载数据

加载有重复值的数据,并展示数据。

# coding: utf-8

import os #导入设置路径的库

import pandas as pd #导入数据处理的库

import numpy as np #导入数据处理的库

os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径

name = pd.r

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值