pandas数据处理pivot_table()方法和分组groupby()方法

最新推荐文章于 2023-08-19 20:19:18 发布

mercies

最新推荐文章于 2023-08-19 20:19:18 发布

阅读量1.7k

点赞数

分类专栏： pandas python

本文链接：https://blog.csdn.net/mercies/article/details/105243296

版权

python 同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

pandas

3 篇文章 0 订阅

订阅专栏

数据透视图功能，pivot_table()方法

使用pivot_table()方法，提供了数据透视表的功能

第一个参数指定我们需要计算的列，第二个参数指定行标签

aggfunc参数指定对需要计算的列的计算方法，此处用sum

import pandas as pd
# 没有columns数据，header属性设置为None
card_df = pd.read_csv('./train/card_train.txt')
card_df.columns = ['id', 'consume', 'where', 'how', 'time', 'amount', 'remainder']
card_graph = card_df.pivot_table(index=['id'], columns=['how'], aggfunc=[sum])
card_graph.fillna(0, inplace=True)
print(card_graph)

首先需要按照大学生的id进行分组，再按照消费类别进行分组，对分组后的数据，
我们还需要一个加总的方法来得到每一个学生在每一个类别下的总支出，用groupby方法对数据进行分组

groupby()方法

unstack方法，将我们指定的行标签指定维列标签
这样输出后，发现结果中有NAN的数据，我们可以用fillna方法将其转换：
用0值替换NAN值，同时，直接覆盖原来的DataFrame

card_graph = card_df.groupby(['id', 'how'])['amount'].sum()
card_graph = card_graph.unstack('how')
card_graph.fillna(0, inplace=True)
print(card_graph)

下面是计算总和
#对以上得到的结果，我们需要汇总每一行的数据，得到每个学生总的消费金额，具体，
#使用sum()方法，指定axis=1，表示对每一行的数据进行加总，默认为0，将计算的结果赋值到“总计”列，最后用.to_csv()将结果保存起来

card_graph['总计'] = card_graph.sum(axis=1, skipna=False)
card_graph['恩格尔1'] = card_graph['食堂'] / card_graph['总计']
print(card_graph[['食堂', '总计', '恩格尔1']])
card_graph.to_csv('./output/card_train.csv',encoding='utf-8')

mercies

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas数据处理pivot_table()方法和分组groupby()方法

数据透视图功能，pivot_table()方法使用pivot_table()方法，提供了数据透视表的功能第一个参数指定我们需要计算的列，第二个参数指定行标签aggfunc参数指定对需要计算的列的计算方法，此处用sumimport pandas as pd# 没有columns数据，header属性设置为Nonecard_df = pd.read_csv('./train/card_tr...
复制链接

扫一扫

专栏目录