版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80831604
看本文前,请看pandas的使用教程 https://blog.csdn.net/kun1280437633/article/details/80369390,有基础请忽略
1 读取数据
我们利用pandas的read_csv方法将数据读入到DataFrame中:
#没有columns数据,header属性设置为None
card_df=pd.read_csv('card_train.txt',header=None)
由于官方没有给定colunms,我们对columns属性进行赋值:
card_df.columns = ['id','consume','where','how','time','amount','remainder']
我们可以先来看一下前10行的数据,使用head()方法
print (card_df.head(10))
输出结果如下:
id consume where how time amount remainder
1006 POS消费 地点551 淋浴 2013/09/01 0.50 124.90
1006 POS消费 地点551 淋浴 2013/09/01 0.50 124.90
1968 POS消费 地点159 淋浴 2013/09/01 0.10 200.14
1968 POS消费 地点159 淋浴 2013/09/01 0.10 200.14
1406 POS消费 地点660 开水 2013/09/01 0.01 374.42
1406 POS消费 地点660 开水 2013/09/01 0.01 374.42
1406 POS消费 地点78 其他 2013/09/01 0.60 373.82
1406 POS消费 地点78 其他 2013/09/01 0.60 373.82
13554 POS消费 地点6 淋浴 2013/09/01 0.50 522.37
13554 POS消费 地点6 淋浴 2013/09/01 0.50 522.37
天呐,这有点太乱了吧,没关系,小编带你一步步简化数据!
2)数据汇总
想要计算恩格尔系数,需要知道每个人的食品支出以及消费总支出,即我们想要看到的结果是这样子的:
id 图书馆 食堂 超市 开水 教务处 文印中心 校医院.....
01 0.0 100.0 20.0 5.0 3.0 10.0 100.0
02 0.0 100.0 20.0 5.0 3.0 10.0 100.0
02 0.0 100.0 20.0 5.0 3.0 10.0 100.0
下面文文将用两种方法带你得到这样的汇总数据
使用groupby()方法
groupby,顾名思义,就是对数据进行分组的意思。可以看出我们首先需要按照学生的id进行分组,再按照消费类别进行分组,对分组后的数据,我们还需要一个加总的方法来得到每个学生在每个类别下的总支出。groupby的使用如下:
#首先,使用groupby,指定首先按照id进行分组,再按照how列进行分组,
#对于分#组后的数据,我们取amount列,并进行加总处理
card_group=card_df.groupby(['id','how'])['amount'].sum()
得到的结果如下:
id how
0 图书馆 84.40
开水 429.58
文印中心 0.30
校车 417.49
淋浴 12.30
超市 839.68
食堂 647.81
1 图书馆 324.20
开水 265.97
教务处 29.30
文印中心 96.40
校车 119.40
洗衣房 25.02
淋浴 22.50
超市 514.30
食堂 1540.60
就快要成功啦,但是离我们的目标还差一点,我们需要将以how命名的行标签转换成列标签,就可以得到我们想要的结果啦。想要行标签转换成列标签,我们可以使用pandas提供的unstack方法,具体如下:
card_group=card_group.unstack('how')
unstack方法将我们指定的行标签转换成列标签,我们可以看一下此时的输出结果:
Name: amount, dtype: float64
how 其他 图书馆 开水 教务处 文印中心 校医院 校车 洗衣房 淋浴 超市 食堂
id
0 NaN 84.40 429.58 NaN 0.3 NaN 417.49 NaN 12.30 839.68 647.81
1 NaN 324.20 265.97 29.3