40. Pandas怎样实现groupby聚合后字符串列的合并

Pandas怎样实现groupby聚合后字符串列的合并

需求:

计算每个月的最高温度、最低温度、出现的风向列表、出现的空气质量列表

数据输入
数据输出

读取数据

import pandas as pd
fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df = pd.read_csv(fpath)
df.head(3)
ymdbWenduyWendutianqifengxiangfengliaqiaqiInfoaqiLevel
02018-01-013℃-6℃晴~多云东北风1-2级592
12018-01-022℃-5℃阴~多云东北风1-2级491
22018-01-032℃-5℃多云北风1-2级281
知识:使用df.info()可以查看每列的类型
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   ymd        365 non-null    object
 1   bWendu     365 non-null    object
 2   yWendu     365 non-null    object
 3   tianqi     365 non-null    object
 4   fengxiang  365 non-null    object
 5   fengli     365 non-null    object
 6   aqi        365 non-null    int64 
 7   aqiInfo    365 non-null    object
 8   aqiLevel   365 non-null    int64 
dtypes: int64(2), object(7)
memory usage: 25.8+ KB
知识:series怎样从str类型变成int
df["bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df["yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
df.head(3)
ymdbWenduyWendutianqifengxiangfengliaqiaqiInfoaqiLevel
02018-01-013-6晴~多云东北风1-2级592
12018-01-022-5阴~多云东北风1-2级491
22018-01-032-5多云北风1-2级281
知识:进行日期列解析,可以方便提取月份
df["ymd"] = pd.to_datetime(df["ymd"])
df["ymd"].dt.month
0       1
1       1
2       1
3       1
4       1
       ..
360    12
361    12
362    12
363    12
364    12
Name: ymd, Length: 365, dtype: int64
知识:series可以用Series.unique去重
df["fengxiang"].unique()
array(['东北风', '北风', '西北风', '西南风', '南风', '东南风', '东风', '西风'], dtype=object)
知识:可以用",".join(series)实现数组合并成大字符串
",".join(df["fengxiang"].unique())
'东北风,北风,西北风,西南风,南风,东南风,东风,西风'

方法1

result = (
    df.groupby(df["ymd"].dt.month)
      .agg(
          # 新列名 = (原列名,函数)
          最高温度=("bWendu", "max"),
          最低温度=("yWendu", "min"),
          风向列表=("fengxiang", lambda x : ",".join(x.unique())),
          空气质量列表=("aqiInfo", lambda x : ",".join(x.unique()))
      )
      .reset_index()
      .rename(columns={"ymd":"月份"})
)
result
月份最高温度最低温度风向列表空气质量列表
017-12东北风,北风,西北风,西南风,南风,东南风,东风良,优,轻度污染,中度污染
1212-10北风,西南风,南风,西北风,西风,东北风,东风良,优,轻度污染,中度污染,重度污染
2327-4西南风,北风,东南风,南风,东北风,东风优,良,重度污染,轻度污染,中度污染,严重污染
34301南风,北风,东北风,西南风,西北风,东南风重度污染,良,优,轻度污染,中度污染
453510东北风,北风,西南风,南风,东南风,东风,西风,西北风轻度污染,优,良,中度污染
563817西南风,南风,北风,东风,东南风,东北风良,轻度污染,优,中度污染
673722东南风,西南风,南风,东北风,东风,西风,北风良,轻度污染,优
783620东南风,南风,东风,东北风,北风,西南风良,轻度污染,优
893111南风,北风,西南风,西北风优,良,轻度污染
910251北风,西北风,南风,西风,东北风,西南风优,良,轻度污染,中度污染
101118-4南风,北风,西南风,东南风,西北风,东北风良,轻度污染,重度污染,优,中度污染
111210-12东南风,东北风,西北风,西南风中度污染,重度污染,良,优,轻度污染

方法2

def agg_func(x):
    """注意,这个x是每个分组的dataframe"""
    return pd.Series({
        "最高温度": x["bWendu"].max(),
        "最低温度": x["yWendu"].min(),
        "风向列表": ",".join(x["fengxiang"].unique()),
        "空气质量列表": ",".join(x["aqiInfo"].unique())
    })

result = df \
        .groupby(df["ymd"].dt.month) \
        .apply(agg_func) \
        .reset_index() \
        .rename(columns={"ymd":"月份"})
result
月份最高温度最低温度风向列表空气质量列表
017-12东北风,北风,西北风,西南风,南风,东南风,东风良,优,轻度污染,中度污染
1212-10北风,西南风,南风,西北风,西风,东北风,东风良,优,轻度污染,中度污染,重度污染
2327-4西南风,北风,东南风,南风,东北风,东风优,良,重度污染,轻度污染,中度污染,严重污染
34301南风,北风,东北风,西南风,西北风,东南风重度污染,良,优,轻度污染,中度污染
453510东北风,北风,西南风,南风,东南风,东风,西风,西北风轻度污染,优,良,中度污染
563817西南风,南风,北风,东风,东南风,东北风良,轻度污染,优,中度污染
673722东南风,西南风,南风,东北风,东风,西风,北风良,轻度污染,优
783620东南风,南风,东风,东北风,北风,西南风良,轻度污染,优
893111南风,北风,西南风,西北风优,良,轻度污染
910251北风,西北风,南风,西风,东北风,西南风优,良,轻度污染,中度污染
101118-4南风,北风,西南风,东南风,西北风,东北风良,轻度污染,重度污染,优,中度污染
111210-12东南风,东北风,西北风,西南风中度污染,重度污染,良,优,轻度污染

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值