pandas对多列同时使用apply_因Pandas版本较低,这个API实现不了咋办?

前几天发表了一篇推文,分享了Pandas中非常好用的一个API——explode,然而今天又发生了戏剧性的一幕:因Pandas版本过低系统提示'Series' object has no attribute 'explode'!好吧,好用的东西永远都是娇贵的,这个道理没想到在代码中也适用。所以,今天就以此为题展开拓展分析,再输出一点Pandas干货……

4e1f3dfaf2ea2d0f9ebd2bc1cfad444c.png

问题描述:一个pandas dataframe数据结构存在一列是集合类型(即包含多个子元素),需要将每个子元素展开为一行。这一场景运用pandas中的explodeAPI将会非常好用,简单高效。然而,由于线上部署pandas版本为0.23,而explode API是在0.25以后版本中引入,所以无法使用。为解决这一问题,灵活运用apply+stack可破此难题。

44336aacd5fe61d05b587c0903ac95bf.png
explode函数在0.25版本加入,其中ignore_index则是在1.1版本增加

既然explode无法直接使用,那么就必须尝试用其他方法实现相同的效果。这里首先给出执行explode后的目标效果:

7376329a68bed3befc6cf954a3873a19.png

观察explode执行后的目标效果,实际上颇有SQL中经典问题——列转行的味道。也就是说,B列实际上可看做是多列的聚合效果,然后在多列的基础上执行列转行即可。基于这一思路,可将问题拆解为两个子问题:

  • 含有列表元素的单列分为多列
  • 多列转成多行

而这两个子问题在pandas丰富的API中其实都是比较简单的,例如单列分为多列,那么其实就是可直接用pd.Series即可完成拆解,具体如下图所示。其中用到的一个小技巧是:为保留其他列信息可先将其置于索引,最后可再复位索引即可。

9a8224d503d94d4d7ab16fb09e595c34.png

至此,实际上是完成了单列向多列的转换,其中由于每列包含元素个数不同,展开后的长度也不尽一致,pandas会保留最长的长度,并将其余填充为空值(正因为空值的存在,所以原本的整数类型自动变更为小数类型)。值得一提,这里的空值在后续处理中将非常有用。

在完成展开多列的基础上,下面要做的就是列转行,即将多列信息转换逐行显示,这在SQL中是非常经典的问题,在pandas中自然也有所考虑,所以就需要引出第二个API:stack!stack原义为堆栈的意思,放到pandas中就是将元素堆叠起来——从宽表向长表转换。看下stack的官方注释,是说将一个DataFram转换为多层索引的Series,其中原来的columns变为第二层索引。

b128b6cd10b1deb1365d4a860cabd22b.png

ok,那么可以预见的是在刚才获得的多列DataFrame基础上执行stack,将实现列转行堆叠的效果并得到一个Series。具体来说,结果如下:

5e2da2a259a89f83a358b4a767099b30.png

同时,我们还发现不仅实现了列压缩为行,还顺带把原先多出来的NaN空值列给过滤了,简直是意外收获。实际上,这并不意外,因为stack设置了一个默认参数dropna=True。至此,已经基本实现了预定的功能,剩下的就只需将双层索引复位到数据列即可。当然,这里复位之后会增加两列数据,除了原本需要的一列外另一列是多余的,仅需将其drop掉即可,当然还需完成列名的变更。完整代码如下:

a49fea1558a8150ffad17b86787e81ff.png

虽然以上实现不如直接一句explode来得优雅,但也着实实现了相同的效果,而且实际上更有成就感,不是吗!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值