记录groupby的一次操作

df = pd.DataFrame({'key1':list('aabba'),
'key2': ['one','two','one','two','one'],
'data1': np.random.randn(5),
'data2': np.random.randn(5)})
df

 data1data2key1key2
0-0.0141922.236780aone
1-0.0289810.507988atwo
2-1.168170-0.818003bone
30.2078490.755156btwo
4-0.457174-1.407547aone

g=df.groupby(["key1"])
g.head(4)

 data1data2key1key2
0-0.0141922.236780aone
1-0.0289810.507988atwo
2-1.168170-0.818003bone
30.2078490.755156btwo



 

g['data1'].head(2)

0   -0.014192
1   -0.028981
2   -1.168170
3    0.207849
Name: data1, dtype: float64

feature_bag = g['data1'].apply(lambda x:set(x)).reset_index()

feature_bag

 

 

前面的情况比较好了解,groupby返回的是一个groupby对象。它实际上还没有进行任何计算,只是含有一些有分组键的中间数据而已。

因此输出g的时候,没有变化,抽取其中一列也和直接对df操作并没有什么区别。

但是做操作:feature_bag = g['data1'].apply(lambda x:set(x)).reset_index()。

做集合的时候,是以groupby()的key1的键值作为集合的生成判断标准的。

 

 

 
 

 

转载于:https://www.cnblogs.com/smartwhite/p/9664360.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值