使用Pandas完成data列数据处理，按照数据列中元素出现的先后顺序进行分组排列...

最新推荐文章于 2023-07-06 15:14:12 发布

小詹学 Python

最新推荐文章于 2023-07-06 15:14:12 发布

阅读量457

点赞数

文章标签： python 机器学习 java 人工智能编程语言

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0OTU5OTI4MA==&mid=2247508254&idx=2&sn=83d9907d27291a3742a6b26c91cb85d6&chksm=fbaf8041ccd8095736a84319edaf54f459f17494ef9c1a6217cfadc52c10dc8cd90e54552555&scene=126&&sessionid=0

版权

一、前言

前几天在Python钻石交流群【瑜亮老师】给大家出了一道Pandas数据处理题目，使用Pandas完成下面的数据操作：把data列中的元素，按照它们出现的先后顺序进行分组排列，结果如new列中展示。df打印结果展示如下：。

下面是原始内容。

import pandas as pd
df = pd.DataFrame({
    'data': ['A1', 'D3', 'B2', 'C4', 'A1', 'A2', 'B2', 'B3', 'C3', 'C4', 'D5', 'D3'],
    'new': ['A1', 'A1', 'D3', 'D3', 'B2', 'B2', 'C4', 'C4', 'A2', 'B3', 'C3', 'D5']
})
print(df)
# 请补充你的代码。new列为data列分组排序后的结果
print(df)

结果如下图所示：

二、实现过程

方法一

这里【猫药师Kelly】给出了一个解答，代码和结果如下图所示。

方法二

【瑜亮老师】自己也给出了一个答案，代码如下图所示：

df['newnew'] = sum([[k]*v for k, v in Counter(df['data']).items()], [])

运行之后，结果如下图所示：

方法三

【瑜亮老师】从其他群分享了一份代码，代码如下图所示：

import pandas as pd
from collections import Counter
from itertools import chain
df = pd.DataFrame({
    'data': ['A1', 'D3', 'B2', 'C4', 'A1', 'A2', 'B2', 'B3', 'C3', 'C4', 'D5', 'D3'],
    'new': ['A1', 'A1', 'D3', 'D3', 'B2', 'B2', 'C4', 'C4', 'A2', 'B3', 'C3', 'D5']
})
print(df)
df['newnew'] = [*chain(*([k]*v for k, v in Counter(df['data']).items()))]
print(df)

运行之后，结果如下图所示：

方法四

这里【月神】给出了三个方法，下面展示的这个方法和上面两个方法的思路是一样的，代码如下图所示：

import pandas as pd

df = pd.DataFrame({
    'data': ['A1', 'D3', 'B2', 'C4', 'A1', 'A2', 'B2', 'B3', 'C3', 'C4', 'D5', 'D3'],
    'new': ['A1', 'A1', 'D3', 'D3', 'B2', 'B2', 'C4', 'C4', 'A2', 'B3', 'C3', 'D5']
})
print(df)
df['new2'] = df['data'].unique().repeat(df['data'].value_counts(sort=False))
print(df)

运行之后，结果如下图所示：

方法五

后来【月神】还补充了一个方法，代码如下图所示：

import pandas as pd

df = pd.DataFrame({
    'data': ['A1', 'D3', 'B2', 'C4', 'A1', 'A2', 'B2', 'B3', 'C3', 'C4', 'D5', 'D3'],
    'new': ['A1', 'A1', 'D3', 'D3', 'B2', 'B2', 'C4', 'C4', 'A2', 'B3', 'C3', 'D5']
})
print(df)
df['new3'] = df['data'].astype('category').cat.reorder_categories(df['data'].unique()).sort_values().values
print(df)

运行之后，结果如下图所示：

方法六

后来【月神】还补充了第三个方法，代码如下图所示：

import pandas as pd

df = pd.DataFrame({
    'data': ['A1', 'D3', 'B2', 'C4', 'A1', 'A2', 'B2', 'B3', 'C3', 'C4', 'D5', 'D3'],
    'new': ['A1', 'A1', 'D3', 'D3', 'B2', 'B2', 'C4', 'C4', 'A2', 'B3', 'C3', 'D5']
})
print(df)
df['new4'] = sorted(df['data'].tolist(), key=df['data'].tolist().index)
print(df)

运行之后，结果如下图所示：

这个方法还是有点难以理解的，【月神】这里补充了下。

八仙过海，神仙操作，简直太强了！

三、总结

大家好，我是皮皮。这篇文章主要盘点了使用Pandas完成data列数据处理，按照数据列中元素出现的先后顺序进行分组排列的问题，文中针对该问题给出了具体的解析和代码演示，一共6个方法，欢迎一起学习交流，我相信还有其他方法，如果你有的话，记得来我交流群分享噢！

【月神】和【瑜亮老师】太强了，这个里边东西还是很多的，可以学习很多。

最后感谢【瑜亮老师】出题，感谢【瑜亮老师】、【猫药师Kelly】、【月神】给出的代码和具体解析，感谢【dcpeng】等人参与学习交流。

小伙伴们，快快用实践一下吧！

END

推荐阅读



牛逼！Python常用数据类型的基本操作（长文系列第①篇）
牛逼！Python的判断、循环和各种表达式（长文系列第②篇）

牛逼！Python函数和文件操作（长文系列第③篇）

牛逼！Python错误、异常和模块（长文系列第④篇）

吴恩达deeplearining.ai的经典总结资料
Ps：从小程序直接获取下载

小詹学 Python

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用Pandas完成data列数据处理，按照数据列中元素出现的先后顺序进行分组排列...

一、前言前几天在Python钻石交流群【瑜亮老师】给大家出了一道Pandas数据处理题目，使用Pandas完成下面的数据操作：把data列中的元素，按照它们出现的先后顺序进行分组排列，结果如new列中展示。df打印结果展示如下：。下面是原始内容。importpandasaspddf=pd.DataFrame({'data':['A1','D3','B2','C4',...
复制链接

扫一扫