pandas使用drop_duplicates去除DataFrame重复项参数详解

原创 2018年04月16日 17:06:10

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。


BO2k源代码分析(一)----WinMain()函数

  花了些时间分析BO2K,现将结果依次发表出来.接着还将发表BO消息循环机制,网络原理,自编LoadLibrary()的实现,Plug In原理,关键命令的实现原理等. 愿对诸君C++编程和Wind...
  • saiwai76
  • saiwai76
  • 2001-04-29 11:52:00
  • 1465

Python对多属性的重复数据去重

python中的pandas模块中对重复数据去重步骤: 1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重复行...
  • zhoufen12345
  • zhoufen12345
  • 2016-12-12 14:52:26
  • 24492

Pandas drop_duplicates的inplace属性

Pandas drop_duplicates的inplace属性
  • orsonV
  • orsonV
  • 2017-12-08 22:37:20
  • 194

Pandas之drop_duplicates:去除重复项

方法DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)参数这个drop_duplicate方法是对DataFrame...
  • u010665216
  • u010665216
  • 2017-11-17 11:15:49
  • 4797

Pandas标记删除重复记录

Pandas提供了duplicated、Index.duplicated、drop_duplicates函数来标记及删除重复记录 duplicated函数用于标记Series中的值、DataFrame...
  • weixin_37226516
  • weixin_37226516
  • 2017-06-02 17:59:45
  • 2542

在pandas中,使用frame.drop_duplicates(['state'])去掉多属性数据中重复行

python中的pandas模块中对重复数据去重步骤: 1)利用DataFrame中的duplicated方法返回一个布尔型的Series,显示各行是否有重复行,没有重复行显示为FALSE,有重...
  • yj1556492839
  • yj1556492839
  • 2017-11-09 15:18:03
  • 487

公开的海量数据集 Public Research-Quality Datasets

http://rensanning.iteye.com/blog/1601663 海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门...
  • isuker
  • isuker
  • 2016-08-30 15:09:49
  • 423

删除重复元素 drop_duplicates()

import pandas as pd df = pd.read_excel("合并fitment.xlsx") print(len(df)) skus = df.SKU.drop_duplicate...
  • zn505119020
  • zn505119020
  • 2017-09-19 17:38:17
  • 1576

pandas使用drop_duplicates去除DataFrame重复项参数详解

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:data.drop_duplicates(subset=['A','B'],keep='first',inpl...
  • qq_28811329
  • qq_28811329
  • 2018-04-16 17:06:10
  • 18

python pandas dataframe 去重函数

python pandas dataframe 去重函数
  • xinxing__8185
  • xinxing__8185
  • 2015-08-27 09:32:15
  • 65764
收藏助手
不良信息举报
您举报文章:pandas使用drop_duplicates去除DataFrame重复项参数详解
举报原因:
原因补充:

(最多只允许输入30个字)