panda使用3

2)数据汇总


想要计算恩格尔系数,需要知道每个人的食品支出以及消费总支出,即我们想要看到的结果是这样子的:

id 图书馆  食堂  超市 开水 教务处 文印中心 校医院.....
01  0.0  100.0 20.0 5.0   3.0   10.0   100.0
02  0.0  100.0 20.0 5.0   3.0   10.0   100.0
02  0.0  100.0 20.0 5.0   3.0   10.0   100.0
将用两种方法带你得到这样的汇总数据

使用groupby()方法


groupby,顾名思义,就是对数据进行分组的意思。可以看出我们首先需要按照学生的id进行分组,再按照消费类别进行分组,对分组后的数据,我们还需要一个加总的方法来得到每个学生在每个类别下的总支出。groupby的使用如下:

#首先,使用groupby,指定首先按照id进行分组,再按照how列进行分组,
#对于分#组后的数据,我们取amount列,并进行加总处理
card_group=card_df.groupby(['id','how'])['amount'].sum()

得到的结果如下:

id     how 
0      图书馆       84.40
       开水       429.58
       文印中心       0.30
       校车       417.49
       淋浴        12.30
       超市       839.68
       食堂       647.81
1      图书馆      324.20
       开水       265.97
       教务处       29.30
       文印中心      96.40
       校车       119.40
       洗衣房       25.02
       淋浴        22.50
       超市       514.30
       食堂      1540.60

就快要成功啦,但是离我们的目标还差一点,我们需要将以how命名的行标签转换成列标签,就可以得到我们想要的结果啦。想要行标签转换成列标签,我们可以使用pandas提供的unstack方法,具体如下:

card_group=card_group.unstack('how')

unstack方法将我们指定的行标签转换成列标签,我们可以看一下此时的输出结果:



Name: amount, dtype: float64
how   其他  图书馆    开水    教务处 文印中心  校医院   校车    洗衣房   淋浴    超市      食堂
id                                                                       
0     NaN   84.40   429.58   NaN    0.3     NaN   417.49    NaN   12.30  839.68   647.81 
1     NaN  324.20   265.97  29.3   96.4     NaN   119.40   25.02   22.50  514.30  1540.60 
8     NaN  425.90  2440.94   NaN    2.6     NaN  2211.45   4.50   39.83    0.00   387.15 

得到上面的结果,我们马上就要大功告成啦,但是我们发现结果中有NAN的数据,表明该学生没有该类别的消费记录。我们可以用fillna方法将其转换:

#用0替换NaN值,同时直接覆盖原DataFrame
card_group.fillna(0,inplace=True)

再次看一下我们的输出,大功告成!

Name: amount, dtype: float64
how   其他  图书馆    开水    教务处 文印中心  校医院   校车    洗衣房   淋浴    超市      食堂
id
0     0.0   84.40   429.58   0.0    0.3     0.0   417.49    0.0   12.30  839.68   647.81
1     0.0  324.20   265.97  29.3   96.4     0.0   119.40   25.02   22.50  514.30  1540.60
8     0.0  425.90  2440.94   0.0    2.6     0.0  2211.45   4.50   39.83    0.00   387.15

使用pivot_table()方法


如果你是一名熟练的excel爱好者,很容易想到的是使用数据透视表来实现我们所要的结果。没错,pandas也提供了数据透视表的功能,相对于使用groupby来说,数据透视表更加的便捷快速,代码如下:

#第一个参数指定我们需要计算的列,第二个参数指定行标签,第三个参数代表列标签,
#aggfunc参数指定对需要计算的列的计算方法,此处用sum方法进行汇总,如果是计数,使用len方法
card_group=card_df.pivot_table('amount',index=['id'],columns=['how'],aggfunc=sum)

结果如下:

how   其他  图书馆    开水    教务处 文印中心  校医院   校车    洗衣房   淋浴    超市      食堂
id                                                                       
0     NaN   84.40   429.58   NaN    0.3     NaN   417.49    NaN   12.30  839.68   647.81 
1     NaN  324.20   265.97  29.3   96.4     NaN   119.40   25.02   22.50  514.30  1540.60 
8     NaN  425.90  2440.94   NaN    2.6     NaN  2211.45   4.50   39.83    0.00   387.15 

再对上面的结果中的NaN进行替换,即可得到我们想要的结果,此处不再赘述。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值