python- pandas cumsum用法

Cumsum :计算轴向元素累加和,返回由中间结果组成的数组

第一部分:求累计次数(转自https://blog.csdn.net/qq_22238533/article/details/72900634)

本文主要是针对 cumsum函数的一些用法。具体应用场景看下面的数据集。


第一列是userID,第二列是安装的时间,第三列是安装的次数。

我们现在想做一件事情。就是统计用户在某一天前累计的安装次数。

譬如,对userID为20的用户,问在16天前,其安装次数为多少? 答案应该是4次。用python的实现也很简单。

又譬如,userID为44在19天前安装的次数,那就应该是1+3+1+1=6次。

具体代码:(假设数据集为data)

由于是针对每个userID,所以是需要将userID划分一下(这个方法在组内排序的时候有提到,可以参考前面的文章)。

所以才有下面这一句

groupby(['userID']) 

然后,分完组后需要统计的Times,所以就是下面这一句

data['Times'].groupby(['userID'])

最后,我们需要的是累加量,所以,用cumsum()这个函数。

data['sum_Times']=data['Times'].groupby(['userID']).cumsum()

用得到的结果放在一列。

最后得到结果如下:


可以从sum_Times这列看到,每一个值都是相应userID在前一行的累加值。

第二部分:返回由中间结果组成的数组


(转自 https://blog.csdn.net/yuansuo0516/article/details/78331568)

定义一个2*2*3的数组,所以其shape是2,2,3,索引分别0,1,2
shape索引
20
21
32
import numpy as np  
arr  = np.array([[[1,2,3],[8,9,12]],[[1,2,4],[2,4,5]]])   
print(arr.cumsum(0))  
print(arr.cumsum(1))  
print(arr.cumsum(2))
输出结果:
#cumsum(0)  
[[[ 1  2  3]  
  [ 8  9 12]]  
 [[ 2  4  7]  
  [10 13 17]]]  
#cumsum(1)  
[[[ 1  2  3]  
  [ 9 11 15]]  
 [[ 1  2  4]  
  [ 3  6  9]]]  
#cumsum(2)  
[[[ 1  3  6]  
  [ 8 17 29]]  
 [[ 1  3  7]  
  [ 2  6 11]]]  
注释:
arr是一个2*2*3三维矩阵,索引值为0,1,2
cumsum(0):实现0轴上的累加:以最外面的数组元素为单位,以[[1,2,3],[8,9,12]]为开始实现后面元素的对应累加
cumsum(1):实现1轴上的累加:以中间数组元素为单位,以[1,2,3]为开始,实现后面元素的对应累加
cumsum(2):实现2轴上的累加:以最里面的元素为累加单位,即1为开始,实现后面的元素累加

四维数组实现
下面看一个四维数组2*2*2*4,索引值为0,1,2,3
import numpy as np  
arr  = np.arange(32).reshape((2,2,2,4))  
print(arr)  
print(arr.cumsum(0))  
print(arr.cumsum(1))  
print(arr.cumsum(2))  
print(arr.cumsum(3)) 
arr:  ##  arr是一个2*2*2*4四维矩阵,索引值为0,1,2,3 
[[[[ 0  1  2  3]  
   [ 4  5  6  7]]  
  [[ 8  9 10 11]  
   [12 13 14 15]]]  
 [[[16 17 18 19]  
   [20 21 22 23]]  
  [[24 25 26 27]  
   [28 29 30 31]]]]  
cumsum(0):实现0轴上的累加即:以最外面数组元素为单位即以下两个的 对应位置元素相加起来

[[[ 0  1  2  3]  
   [ 4  5  6  7]]  
  [[ 8  9 10 11]  
   [12 13 14 15]]] 
[[[16 17 18 19]  
   [20 21 22 23]]  
  [[24 25 26 27]  
   [28 29 30 31]]]] 
结果:
[[[[ 0  1  2  3]  
   [ 4  5  6  7]]  
  [[ 8  9 10 11]  
   [12 13 14 15]]]  
 [[[16 18 20 22]  
   [24 26 28 30]]  
  [[32 34 36 38]  
   [40 42 44 46]]]]  
cumsum(1):实现1轴上的累加即:以次外面元素为单位,累加以下四个
[[ 0  1  2  3]  
   [ 4  5  6  7]] 

[[ 8  9 10 11]  
 [12 13 14 15]]  

[[16 17 18 19]  
   [20 21 22 23]] 

[[24 25 26 27]  
   [28 29 30 31]]  
累计过程产生的中间结果要记录到数组中,所以,结果:
[[[[ 0  1  2  3]  
   [ 4  5  6  7]]  
  [[ 8 10 12 14]            
   [16 18 20 22]]]  
 [[[16 17 18 19]  
   [20 21 22 23]]  
  [[40 42 44 46]  
   [48 50 52 54]]]] 
cumsum(2)就对应从[ 0  1  2  3]数组元素开始实现累加,然后记录中间结果
cumsum(3)对应的是从最里面最小的数组元素,即从0开始实现累加,记录中间结果




  • 7
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值