项目场景:
提示:这里简述项目相关背景:
pandas之使用groupby后对于剩下的字符串的列去重合并
代码描述
import pandas as pd
import numpy as np
fpath=r"G:\360Downloads\myself\zuoye\groupby后字符串合并处理\tianqi.xlsx"
df=pd.read_excel(fpath)
df.head()
#info可查看每列类型
df.info()
#将最高温度最低温度由字符串变成数字
df["bwendu"]=df["bwendu"].str.replace("℃","").astype('int32')
df["ywendu"]=df["ywendu"].str.replace("℃","").astype('int32')
#对日期进行解析,方便提取月份
#pd.to_datetime将该列数据转换为时间类型
df["ymd"]=pd.to_datetime(df["ymd"])
#Series类型的数据,经过 to_datetime 之后就可以用 pandas.Series.dt.days 和 pandas.Series.pd.month
df["ymd"].dt.month
#series用unique去重
df["fx"].unique()
#",".join(df["fx"].unique())可以实现数组合并成大字符串
#方法1
result=(
df.groupby(df["ymd"].dt.month).agg(
#新列名 = (原列名,函数)
最高温度=("bwendu","max"),
最低温度=("ywendu","min"),
风向列表=("fx",lambda x: ",".join(x.unique())),
空气质量列表=("aqiInfo",lambda x: ",".join(x.unique()))
)
.reset_index()
.rename(columns={"ymd":"月份"})
)
result.head()
#方法2
def agg_func(x):
#这个X是每个分组的dataframe
return pd.Series({
"最高温度":x["bwendu"].max(),
"zuidiwd":x["ywendu"].min(),
"fxlist":",".join(x["fx"].unique()),
"zhilianglist":",".join(x["aqiInfo"].unique())
})
result2=df\
.groupby(df["ymd"].dt.month)\
.apply(agg_func)\
.reset_index()\
.rename(columns={"ymd":"yuefen"})
result2
#写入excel文件
writer=pd.ExcelWriter(r"G:\360Downloads\myself\zuoye\groupby后字符串合并处理\result.xlsx")
result.to_excel(writer,"Sheet1")
writer.save()
运行结果:
提示:输入数据:
提示:输出数据:
总结:
无