2)数据汇总
想要计算恩格尔系数,需要知道每个人的食品支出以及消费总支出,即我们想要看到的结果是这样子的:
id 图书馆 食堂 超市 开水 教务处 文印中心 校医院.....
01 0.0 100.0 20.0 5.0 3.0 10.0 100.0
02 0.0 100.0 20.0 5.0 3.0 10.0 100.0
02 0.0 100.0 20.0 5.0 3.0 10.0 100.0
将用两种方法带你得到这样的汇总数据
使用groupby()方法
groupby,顾名思义,就是对数据进行分组的意思。可以看出我们首先需要按照学生的id进行分组,再按照消费类别进行分组,对分组后的数据,我们还需要一个加总的方法来得到每个学生在每个类别下的总支出。groupby的使用如下:
#首先,使用groupby,指定首先按照id进行分组,再按照how列进行分组,
#对于分#组后的数据,我们取amount列,并进行加总处理
card_group=card_df.groupby(['id','how'])['amount'].sum()
得到的结果如下:
id how
0 图书馆 84.40
开水 429.58
文印中心 0.30
校车 417.49
淋浴 12.30
超市 839.68
食堂 647.81
1 图书馆 324.20
开水 265.97
教务处 29.30
文印中心 96.40
校车 119.40
洗衣房 25.02
淋浴 22.50
超市 514.30
食堂 1540.60
就快要成功啦,但是离我们的目标还差一点,我们需要将以how命名的行标签转换成列标签,就可以得到我们想要的结果啦。想要行标签转换成列标签,我们可以使用pandas提供的unstack方法,具体如下:
card_group=card_group.unstack('how')
unstack方法将我们指定的行标签转换成列标签,我们可以看一下此时的输出结果:
Name: amount, dtype: float64
how 其他 图书馆 开水 教务处 文印中心 校医院 校车 洗衣房 淋浴 超市 食堂
id
0 NaN 84.40 429.58 NaN 0.3 NaN 417.49 NaN 12.30 839.68 647.81
1 NaN 324.20 265.97 29.3 96.4 NaN 119.40 25.02 22.50 514.30 1540.60
8 NaN 425.90 2440.94 NaN 2.6 NaN 2211.45 4.50 39.83 0.00 387.15
得到上面的结果,我们马上就要大功告成啦,但是我们发现结果中有NAN的数据,表明该学生没有该类别的消费记录。我们可以用fillna方法将其转换:
#用0替换NaN值,同时直接覆盖原DataFrame
card_group.fillna(0,inplace=True)
再次看一下我们的输出,大功告成!
Name: amount, dtype: float64
how 其他 图书馆 开水 教务处 文印中心 校医院 校车 洗衣房 淋浴 超市 食堂
id
0 0.0 84.40 429.58 0.0 0.3 0.0 417.49 0.0 12.30 839.68 647.81
1 0.0 324.20 265.97 29.3 96.4 0.0 119.40 25.02 22.50 514.30 1540.60
8 0.0 425.90 2440.94 0.0 2.6 0.0 2211.45 4.50 39.83 0.00 387.15
使用pivot_table()方法
如果你是一名熟练的excel爱好者,很容易想到的是使用数据透视表来实现我们所要的结果。没错,pandas也提供了数据透视表的功能,相对于使用groupby来说,数据透视表更加的便捷快速,代码如下:
#第一个参数指定我们需要计算的列,第二个参数指定行标签,第三个参数代表列标签,
#aggfunc参数指定对需要计算的列的计算方法,此处用sum方法进行汇总,如果是计数,使用len方法
card_group=card_df.pivot_table('amount',index=['id'],columns=['how'],aggfunc=sum)
结果如下:
how 其他 图书馆 开水 教务处 文印中心 校医院 校车 洗衣房 淋浴 超市 食堂
id
0 NaN 84.40 429.58 NaN 0.3 NaN 417.49 NaN 12.30 839.68 647.81
1 NaN 324.20 265.97 29.3 96.4 NaN 119.40 25.02 22.50 514.30 1540.60
8 NaN 425.90 2440.94 NaN 2.6 NaN 2211.45 4.50 39.83 0.00 387.15
再对上面的结果中的NaN进行替换,即可得到我们想要的结果,此处不再赘述。