pandas补充

本文详细介绍了Pandas库中数据合并与汇总的方法,包括使用groupby和pivot_table进行数据分组与汇总,计算恩格尔系数,字符串操作,数据去重,以及merge方法的连接属性和连接方式,涵盖了全外连接、左外连接和右外连接的使用。
摘要由CSDN通过智能技术生成

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80831604

看本文前,请看pandas的使用教程 https://blog.csdn.net/kun1280437633/article/details/80369390,有基础请忽略

1 读取数据

 我们利用pandas的read_csv方法将数据读入到DataFrame中:

#没有columns数据,header属性设置为None
card_df=pd.read_csv('card_train.txt',header=None)

  由于官方没有给定colunms,我们对columns属性进行赋值:

card_df.columns = ['id','consume','where','how','time','amount','remainder']

 我们可以先来看一下前10行的数据,使用head()方法

print (card_df.head(10))

 输出结果如下:

 id   consume  where   how     time     amount remainder
1006   POS消费  地点551  淋浴  2013/09/01   0.50  124.90
1006   POS消费  地点551  淋浴  2013/09/01   0.50  124.90
1968   POS消费  地点159  淋浴  2013/09/01   0.10  200.14
1968   POS消费  地点159  淋浴  2013/09/01   0.10  200.14
1406   POS消费  地点660  开水  2013/09/01   0.01  374.42
1406   POS消费  地点660  开水  2013/09/01   0.01  374.42
1406   POS消费   地点78  其他  2013/09/01   0.60  373.82
1406   POS消费   地点78  其他  2013/09/01   0.60  373.82
13554  POS消费    地点6  淋浴  2013/09/01   0.50  522.37
13554  POS消费    地点6  淋浴  2013/09/01   0.50  522.37

  天呐,这有点太乱了吧,没关系,小编带你一步步简化数据!

2)数据汇总

想要计算恩格尔系数,需要知道每个人的食品支出以及消费总支出,即我们想要看到的结果是这样子的:

id 图书馆  食堂  超市 开水 教务处 文印中心 校医院.....
01  0.0  100.0 20.0 5.0   3.0   10.0   100.0
02  0.0  100.0 20.0 5.0   3.0   10.0   100.0
02  0.0  100.0 20.0 5.0   3.0   10.0   100.0

 下面文文将用两种方法带你得到这样的汇总数据

使用groupby()方法

groupby,顾名思义,就是对数据进行分组的意思。可以看出我们首先需要按照学生的id进行分组,再按照消费类别进行分组,对分组后的数据,我们还需要一个加总的方法来得到每个学生在每个类别下的总支出。groupby的使用如下:

#首先,使用groupby,指定首先按照id进行分组,再按照how列进行分组,
#对于分#组后的数据,我们取amount列,并进行加总处理
card_group=card_df.groupby(['id','how'])['amount'].sum()

  得到的结果如下:

id     how 
0      图书馆       84.40
       开水       429.58
       文印中心       0.30
       校车       417.49
       淋浴        12.30
       超市       839.68
       食堂       647.81
1      图书馆      324.20
       开水       265.97
       教务处       29.30
       文印中心      96.40
       校车       119.40
       洗衣房       25.02
       淋浴        22.50
       超市       514.30
       食堂      1540.60

就快要成功啦,但是离我们的目标还差一点,我们需要将以how命名的行标签转换成列标签,就可以得到我们想要的结果啦。想要行标签转换成列标签,我们可以使用pandas提供的unstack方法,具体如下:

card_group=card_group.unstack('how')

unstack方法将我们指定的行标签转换成列标签,我们可以看一下此时的输出结果:

Name: amount, dtype: float64
how   其他  图书馆    开水    教务处 文印中心  校医院   校车    洗衣房   淋浴    超市      食堂
id                                                                       
0     NaN   84.40   429.58   NaN    0.3     NaN   417.49    NaN   12.30  839.68   647.81 
1     NaN  324.20   265.97  29.3   
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值