python去重复排序_python – pandas DataFrame按重复排序行

最新推荐文章于 2022-07-19 10:58:38 发布

weixin_39572168

最新推荐文章于 2022-07-19 10:58:38 发布

阅读量408

点赞数

文章标签： python去重复排序

您可以使用

cumcount计算A列中的重复项,然后使用A计算

sort_values(不需要样本,实际数据可能很重要),然后使用C.最后在

drop删除C列：

df['C'] = df.groupby('A')['A'].cumcount()

df.sort_values(by=['C', 'A'], inplace=True)

print (df)

A B C

0 r1 0 0

2 r2 2 0

4 r3 4 0

1 r1 1 1

3 r2 3 1

5 r3 5 1

df.drop('C', axis=1, inplace=True)

print (df)

A B

0 r1 0

2 r2 2

4 r3 4

1 r1 1

3 r2 3

5 r3 5

时序：

小df(len(df)= 6)

In [26]: %timeit (jez(df))

1000 loops, best of 3: 2 ms per loop

In [27]: %timeit (boud(df1))

100 loops, best of 3: 2.52 ms per loop

大df(len(df)= 6000)

In [23]: %timeit (jez(df))

100 loops, best of 3: 3.44 ms per loop

In [28]: %timeit (boud(df1))

100 loops, best of 3: 2.52 ms per loop

时间码：

df = pd.concat([df]*1000).reset_index(drop=True)

df1 = df.copy()

def jez(df):

df['C'] = df.groupby('A')['A'].cumcount()

df.sort_values(by=['C', 'A'], inplace=True)

df.drop('C', axis=1, inplace=True)

return (df)

def boud(df):

df['C'] = df.groupby('A')['B'].rank()

df = df.sort_values(['C', 'A'])

df.drop('C', axis=1, inplace=True)

return (df)

100 loops, best of 3: 4.29 ms per loop

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39572168

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python dataframe筛选日期_python – 在Pandas DataFrame中查找连续日期组

weixin_42511201的博客

12-24

1604

我正在尝试从Pandas DataFrame连续日期获取大量数据.我的df看起来如下.DateAnalyzed Val1 2018-03-18 0.4702532 2018-03-19 0.4702533 2018-03-20 0.4702534 2018-09-25 0.4677295 ...

python pandas dataframe 合并_python pandas dataframe 按列或者按行合并的方法

weixin_39716800的博客

11-30

2749

python pandas dataframe 按列或者按行合并的方法concat 与其说是连接，更准确的说是拼接。就是把两个表直接合在一起。于是有一个突出的问题，是横向拼接还是纵向拼接，所以concat 函数的关键参数是axis 。函数的具体参数是：concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=Non...

参与评论您还未登录，请先登录后发表或查看评论

python去重复排序_python实现：重复列表按重复次数排序

weixin_39840606的博客

11-26

139

#重复列表按重复次数排序方法1s = 'aacbddbcdadb'lists1=list(s)uniques1 = set(lists1)dict_str = {}for unique1 in uniques1:i=0for list1 in lists1:if list1 == unique1:i += 1dict_str[unique1]=iprint(dict_str)list2=[]whi...

python去重复排序_【python-leetcode287-循环排序】寻找重复的数

weixin_39709979的博客

11-26

147

问题描述：给定一个包含 n + 1 个整数的数组 nums，其数字都在 1 到 n 之间（包括 1 和 n），可知至少存在一个重复的整数。假设只有一个重复的整数，找出这个重复的数。示例 1:输入: [1,3,4,2,2]输出: 2示例 2:输入: [3,1,3,4,2]输出: 3说明：不能更改原数组（假设数组是只读的）。只能使用额外的 O(1) 的空间。时间复杂度小于 O(n2) 。数组中只有一个...

DataFrame(6)：DataFrame重复值处理

lghpy的博客

12-16

395

DataFrame(6)：DataFrame重复值处理

数据分析_python进行数据预处理2_处理重复值

Monkey_wang_的博客

04-24

650

数据预处理主要包括缺失值处理、重复值处理和异常值的处理重复值首先创建一个实例 df=pd.DataFrame(data=[['A1','张通',101,'2018-08-08'] ,['A2','李谷',102,'2018-08-09'] ,['A3','孙凤',103,'2018-08-10'] ,['A3','孙凤',103,'2018-08-10']

DataFrame基本操作 <三> 计算名次，移除重复数据，数据替换，划分区间，分组统计（变成类）...

baluo7321的博客

06-06

748

生成一个实例 df5 = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]}) print(df5) 运行结果 b a c 0 4.3 0 -2.0 1 7.0 1 5...

Numpy及Pandas_numpy_pandas_dataframe_python_

09-30

Pandas是基于Numpy构建的，它的DataFrame是一个二维表格型数据结构，拥有行和列索引，类似于电子表格或SQL数据库中的表。DataFrame可以存储各种类型的数据，包括数值、字符串、布尔值等，并且支持缺失数据的处理。...

python基础教程：pandas DataFrame 行列索引及值的获取的方法

12-22

pandas DataFrame是二维的,所以,它既有列索引,又有行索引上一篇里只介绍了列索引: import pandas as pd df = pd.DataFrame({'A': [0, 1, 2], 'B': [3, 4, 5]}) print df # 结果: A B 0 0 3 1 1 4 2 2 5 行索引...

Python pandas.DataFrame.to_sql用法

weixin_42410014的博客

07-19

7932

Python pandas.DataFrame.to_sql用法

python 替换重复字符_python - 在Pandas中，如何将重复值替换为多个唯一字符串？_pandas_酷徒编程知识库...

weixin_39762478的博客

12-21

240

對於每行重複，請使用：df = pd.DataFrame(data = {'Name':['Tom', 'Jerry', 'Jack', 'Terry'],'OtherName':['Tom', 'John', 'Bob','Steve'],'Age':[20, 21, 19, 18]})print (df)Name OtherName Age0 Tom Tom 201 Jerry John 21...

pandas列多数据统计重复值排序后切片取字段

cuisidong1997的博客

04-18

368

bandpoi=inbandtick.groupby([‘label’])[‘POI属性’].apply(lambda x: ‘;’.join([m[0] for m in Counter(x).most_common(2)])) print(bandpoi)

python dataframe sort_python数据分析（八） python pandas--series和dataframe的方法，排序，统计...

weixin_39610085的博客

12-04

176

排序根据条件对结果进行排序，是pandas当中的一个重要方法，pandas提供了两种排序方式，根据index值，或是根据其中的value进行排序SeriesIn [192]: objOut[192]:d7a1b2c3e9f4dtype: int64In [193]: obj.sort_index()Out[193]:a1b2c3d7e9f4dtype: int64In [194]: obj.sor...

Python Dataframe 分组排序和 Modin

weixin_30455661的博客

07-05

1190

Python Dataframe 分组排序和 Modin 1、按照其中一列进行排序在dataframe中，按照其中的一列排序：比如q值倒排 (1)rank方法 data['new_rank'] = data.groupby('house_code')['q_score_new'].rank(ascending=False, method='dense') (2)sort_...

python dataframe行数_python – 如何在DataFrame中增加groupby中的行数

weixin_39996798的博客

11-28

164

groupby是正确的想法,但正确的方法是cumcount：>>> product_df['month_num'] = product_df.groupby('product_desc').cumcount()>>> product_dfproduct_desc activity_month prod_count pct_ch month_num0 product_a 20...

python- pandas cumsum用法（求累计次数）

SCUT_Sam

06-07

10万+

本文主要是针对 cumsum函数的一些用法。具体应用场景看下面的数据集。第一列是userID,第二列是安装的时间，第三列是安装的次数。我们现在想做一件事情。就是统计用户在某一天前累计的安装次数。譬如，对userID为20的用户，问在16天前，其安装次数为多少？答案应该是4次。用python的实现也很简单。又譬如，userID为44在19天前安装的次数，那就应该是1+3+1

Pandas对DataFrame单列/多列进行运算（map, apply, transform, agg）