pandas之使用groupby后对于剩下的字符串的列去重合并

项目场景:

提示:这里简述项目相关背景:

pandas之使用groupby后对于剩下的字符串的列去重合并


代码描述

import pandas as pd
import numpy as np
fpath=r"G:\360Downloads\myself\zuoye\groupby后字符串合并处理\tianqi.xlsx"
df=pd.read_excel(fpath)
df.head()
#info可查看每列类型
df.info()
#将最高温度最低温度由字符串变成数字
df["bwendu"]=df["bwendu"].str.replace("℃","").astype('int32')
df["ywendu"]=df["ywendu"].str.replace("℃","").astype('int32')
#对日期进行解析,方便提取月份
#pd.to_datetime将该列数据转换为时间类型
df["ymd"]=pd.to_datetime(df["ymd"])
#Series类型的数据,经过 to_datetime 之后就可以用 pandas.Series.dt.days 和 pandas.Series.pd.month
df["ymd"].dt.month
#series用unique去重
df["fx"].unique()
#",".join(df["fx"].unique())可以实现数组合并成大字符串
#方法1
result=(
    df.groupby(df["ymd"].dt.month).agg(
        #新列名 = (原列名,函数)
        最高温度=("bwendu","max"),
        最低温度=("ywendu","min"),
        风向列表=("fx",lambda x: ",".join(x.unique())),
        空气质量列表=("aqiInfo",lambda x: ",".join(x.unique()))
    )
    .reset_index()
    .rename(columns={"ymd":"月份"})
)
result.head()
#方法2
def agg_func(x):
    #这个X是每个分组的dataframe
    return pd.Series({
        "最高温度":x["bwendu"].max(),
        "zuidiwd":x["ywendu"].min(),
        "fxlist":",".join(x["fx"].unique()),
        "zhilianglist":",".join(x["aqiInfo"].unique())
    })
result2=df\
    .groupby(df["ymd"].dt.month)\
        .apply(agg_func)\
            .reset_index()\
                .rename(columns={"ymd":"yuefen"})
result2
#写入excel文件
writer=pd.ExcelWriter(r"G:\360Downloads\myself\zuoye\groupby后字符串合并处理\result.xlsx")
result.to_excel(writer,"Sheet1")
writer.save()

运行结果:

提示:输入数据:
在这里插入图片描述
提示:输出数据:
在这里插入图片描述


总结:

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值