Python按照某些列去重,可用drop_duplicates函数轻松处理。本文致力用简洁的语言介绍该函数。
一、drop_duplicates函数介绍
drop_duplicates函数可以按某列去重,也可以按多列去重。具体语法如下:
DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
代码解析:
DataFrame:待去重的数据框。
subset:用来指定特定的列,根据指定的列对数据框去重。默认值为None,即DataFrame中一行元素全部相同时才去除。
keep:对重复值的处理方式,可选{‘first’, ‘last’, ‘False’}。默认值first,即保留重复数据第一条。若选last为保留重复数据的最后一条,若选False则删除全部重复数据。
inplace:是否在原数据集上操作。默认值False,即把原数据copy一份,在copy数据上删除重复值,并返回新数据框(原数据框不改变)。值为True时直接在原数据视图上删重,没有返回值。
二、加载数据
加载有重复值的数据,并展示数据。
# coding: utf-8
import os #导入设置路径的库
import pandas as pd #导入数据处理的库
import numpy as np #导入数据处理的库
os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径
name = pd.r