pandas 数据处理-将对应分组的数据字符串罗列在一起，以‘，’分开

菜鸟杜

已于 2024-07-16 07:51:40 修改

阅读量239

点赞数 2

CC 4.0 BY-SA版权

文章标签： pandas

于 2024-07-05 08:53:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinacnd/article/details/140197177

最近在处理数据是时，客户要求将同一病种的诊断名称罗列在一起，以“，”分开。出来前数据表格如下：

序号	病种名称	诊断名称
1	病种1	诊断1
2	病种1	诊断2
3	病种2	诊断3
4	病种3	诊断4
5	病种3	诊断5

现在要将其变成：

序号	病种名称	诊断名称
1	病种1	诊断1，诊断2
2	病种2	诊断3
3	病种3	诊断4，诊断5

方法：首先，使用groupby函数按照'病种组合代码'列的值对数据进行分组。然后，对每个分组中的'诊断名称'列应用一个自定义的聚合函数，该函数将同一组内的'诊断名称'值连接成一个字符串，各个值之间用逗号分隔。最后，使用reset_index函数重置索引，以便在结果中包含'病种组合代码'列作为普通列而不是索引。

代码：

import pandas as pd

# 导入文件
data = pd.read_csv(文件名称.xlsx)

# 执行groupby和agg操作
df_2 = df_1.groupby('病种组合代码')['诊断名称'].agg(lambda x: ','.join(x)).reset_index()

# 如果向获取第一个诊断，可以使用以下代码

df_2['诊断名称'] = df_2['诊断名称'].str.split(',').str[0]

注意事项：

确保在使用groupby之前已经导入了pandas库。
在使用groupby时，确保指定的列名存在于DataFrame中。
在使用agg函数时，传入的聚合函数应该能够处理分组后的数据类型。在这个例子中，我们使用了一个简单的lambda函数来连接字符串，但在实际应用中可能需要更复杂的聚合逻辑。

博客等级

码龄17年

17
原创

27
点赞

139
收藏

85
粉丝

关注

私信

热门文章

分类专栏

Python高效办公 7篇
数据分析 5篇

上一篇：: python pandas为数据表的每一条数据标记其重复的次数

下一篇：: Pandas 数据分析实践-寻找医疗数据中31天再次入院的数据

最新评论

使用Python对比两个excel表格中的重复数据
辽北著名狠人: 'A' 是什么意思，博主
使用Python对比两个excel表格中的重复数据
herry: 很好，谢谢
pandas 如何用空格将两列数据拼接起来
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
pandas 数据分析 - 谈谈日期时间数据的处理
CSDN-Ada助手: 恭喜作者发布了第11篇博客！标题内容看起来非常有趣，对于日期时间数据的处理一直是我工作中的一个难题，期待能从您这里学到一些新的技巧和方法。希望作者在未来的创作中可以深入探讨一些实际案例，结合具体的数据进行分析，这样更容易让读者理解和应用。期待您的下一篇作品！
pandas数据分析-浅谈数据标记
CSDN-Ada助手: 恭喜作者第10篇博客《pandas数据分析-浅谈数据标记》的发布！看到您对数据分析的深入探讨，让我受益匪浅。希望您可以继续保持创作的热情，分享更多关于数据分析的经验和心得。或许下一步可以考虑深入探讨数据可视化或者数据挖掘的相关内容，相信会有更多的读者受益。期待您的下一篇文章！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

菜鸟杜 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。