pandas 某一列分组,其他列合并成list

pandas列转换为字典,但将相同第一列(键)的所有值合并为一个键

 

形式一: 

import pandas as pd

# data
data = pd.DataFrame({'column1':['key1','key1','key2','key2'],
       'column2':['value1','value2','value3','value3']})
print(data)

# Grouped dict
data_dict = data.groupby('column1').column2.apply(list).to_dict() 

print(data_dict)

输出结果:
  column1 column2
0    key1  value1
1    key1  value2
2    key2  value3
3    key2  value3

{'key1': ['value1', 'value2'], 'key2': ['value3', 'value3']}

形式二:

import pandas as pd
# data
df = pd.DataFrame({'column1':['key1','key1','key2','key2'],
       'column2':['value1','value2','value1','value2'],
       'column3':['value11','value11','value22','value22'],
       'column4':['value44','value44','value55','value55']})

# Grouped dict
data_dict = df.groupby('column1').apply(lambda x: {col:x[col].tolist() for col in x.columns if col != 'column2'}).to_dict()
print(data_dict)

data_dict2 = df.groupby('column1').apply(lambda x: {col:x[col].tolist()[0] if col != 'column2' else x[col].tolist() for col in x.columns}).to_dict()
print(data_dict2)

输出结果:
#data_dict
{
    'key1': {
        'column1': ['key1', 'key1'], 
        'column3': ['value11', 'value11'], 
        'column4': ['value44', 'value44']
    }, 
    'key2': {
        'column1': ['key2', 'key2'], 
        'column3': ['value22', 'value22'], 
        'column4': ['value55', 'value55']
    }
}
#data_dict2
{
    'key1': {
        'column1': 'key1', 
        'column2': ['value1', 'value2'], 
        'column3': 'value11', 
        'column4': 'value44'
    }, 
    'key2': {
        'column1': 'key2', 
        'column2': ['value1', 'value2'], 
        'column3': 'value22', 
        'column4': 'value55'
    }
}

 

### 使用Pandas合并数据 在处理表格型或异质型数据时,`pandas` 提供了多种方法来合并数据。以下是几种常见的方法: #### 方法一:使用 `apply` 和 `join` 当目标是将多字符串类型的值合并为单个字符串时,可以利用 `DataFrame.apply()` 结合自定义函数实现。 ```python import pandas as pd # 创建示例 DataFrame df = pd.DataFrame({ '语文评级': ['A', 'B', 'C'], '数学评级': ['D', 'E', 'F'], '英语评级': ['G', 'H', 'I'] }) # 定义一个函数用于拼接各的值 def combine_columns(row): return ''.join([str(x) for x in row]) # 应用该函数到每一行上,并创建新存储结果 df['评级合并'] = df[['语文评级', '数学评级', '英语评级']].apply(combine_columns, axis=1) print(df) ``` 这种方法适用于需要灵活控制每行值组合逻辑的情况[^2]。 #### 方法二:使用 `agg` 聚集操作 对于简单的字符串连接需求,可以直接通过 `agg` 来简化代码: ```python import pandas as pd # 基于之前的 df 数据框继续操作 df['评级合并_agg'] = df.agg(''.join, axis=1) print(df) ``` 此方式更加简洁明了,适合不需要额外处理逻辑的情形下快速完任务。 #### 方法三:基于特定分隔符连接 有时可能希望以某种分隔符(如逗号)区分各个原始的内容,在这种情况下可采用如下做法: ```python import pandas as pd # 继续沿用上面的例子中的 df separator = ',' df['评级合并_with_sep'] = separator.join(map(str, zip(*[df[col].values.tolist() for col in df.columns[:-3]]))) print(df) ``` 上述代码片段展示了如何设置不同的分隔符来进行更复杂的格式化输出。 #### 方法四:直接相加法 如果只是简单地把几内容按顺序相连而不考虑其他因素的话,那么最直观的办法就是像下面这样写: ```python import pandas as pd # 构建新的例子 dataframe df_example_addition = pd.DataFrame({ 'col1': ['a', 'b', 'c'], 'col2': ['d', 'e', 'f'], 'col3': ['g', 'h', 'i'] }) # 对应位置上的元素依次相加以形新的一列 df_example_addition['combined_col'] = (df_example_addition['col1'].astype(str) + df_example_addition['col2'].astype(str) + df_example_addition['col3'].astype(str)) print(df_example_addition) ``` 这种方式特别适合初学者理解和实践基本概念。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lxp198837

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值