groupby:
实现dataframe某一列相等的行的其他列的聚合(分组)
groupby分组后,通过apply(list)可以把column_index(1个值)对应的column_1(1个或多个值)变为list格式,输出为len(column_index)个( 一个index+1个list)的组合,组合类型为array
result_groupby=df['column_1'].groupby(df['column_index']).apply(list)
若要将groupby的结果写入csv文件:
首先转化为字典,字典的键为groupby分组的索引,值为被分组列聚合来的list
result_dict=dict(result_groupby)
遍历字典的每一项,并将键和值组合成文件中每一行的格式:
#文件路径
text_path=r''
#使得文件可写入,codecs库可保证文件写入不乱码
f=codecs.open(train_list,'wb','gbk')
for key,value in result_dict.items():
row_text=key
#文件要求写入固定个数个值
if len(value)>=num:
#文件每行格式要求值的每一个元素之间,用逗号隔开
for i in range(len(num)):
row_text=row_text+','+value[i]
f.write('{0}\n'.format(row_str))
```