pandas之apply和for loop之间的比较和权衡

62 篇文章 5 订阅
10 篇文章 1 订阅

       首先,文章开头就需要强调的是:对于大的数据量,能不用loop就尽量不用loop,无论是for loop还是apply,尽量用内置函数实现。

       在pandas里,我们经常听到一句话就是尽量减少for loop的时候,尽量用apply去替代,但是这句话是有语境的,并不一定的正确的,实际上,在pandas里,对于for loop和apply之间的使用,是一个需要权衡的东西,并非apply就占据了绝对的优势碾压fro loop。

       我们直接看个例子,如下所示。

import time
import pandas as pd
import numpy as np

df=pd.DataFrame(np.arange(800000).reshape(200000,4),columns=list('abcd'))
t1=time.time()
s1=df.apply(lambda x:x['a']+x['c']+x['b']+x['d'],axis=1)
t2=time.time()
print(t2-t1)

# output: 17.57075548171997


t3=time.time()
l1=[]
for i in range(len(df)):
    l1.append(df.loc[i,'a']+df.loc[i,'b']+df.loc[i,'c']+df.loc[i,'d'])
t4=time.time()
print(t4-t3)

# output: 15.522425174713135

       上例中,我们分别用apply和for loop对一个比较大的DataFrame进行了逐行求和,这里当然可以直接用df.sum(axis=1)实现,而且直接用c语言计算,速度非常快,之所以这样写是为了对比apply和for loop。可以看到,上述例子中,两种方式之间的不同几乎就是在for loop和apply的使用上,结果表明,实际上for loop并不比apply慢,反而比apply快了几秒,这是不是有点和我们的一贯认知有点不一样呢?所以说,for loop并非总是逊于apply,这要取决于代码的功能和实现方式,下面再看一个例子,以明确什么情形下使用apply优于for loop。

t5=time.time()
s1=df.apply(np.sum,axis=1)
t6=time.time()
print(t6-t5)

# output: 39.55056023597717

t7=time.time()
l1=[]
for i in range(len(df)):
    l1.append(np.sum(df.loc[i,:]))
t8=time.time()
print(t8-t7)

# output: 97.08243203163147

       上例中,相同的df,我们把求和换成了用np.sum,而不是四个元素相加的形式,可以看到这时apply明显优于for loop。当然,这里的差别可能不仅仅在于for loop和apply,还在于for loop中使用的DataFrame的索引,但是可以认为这种索引带来的性能损失相比于几十秒的差距还是可以忽略的。

       通过上述的对比,我们知道,for loop并非总是逊于apply,实际上,当我们使用的是panda或者numpy的内置函数进行操作时,用apply会更快,因为和同一生态中的apply之间的性能兼容会更好;但是如果是python的原生操作,比如上面的直接用+,这时用for loop会更快。一般情况下是如此,但也不绝对,具体情况需要具体分析。最后,最重要的一点是,尽量避免显示的循环,无论是for loop还是apply,因为这两者都是在python的语境下执行的,最好的是尽量用可以直接实现目的的pandas或者numpy的内置函数,其底层很多用c实现,在性能上会有相当量级上的提升。

       当然,因为内置函数本身是有一定的性能损失的,这也就是为什么下面的例子会比上面的例子慢很多的原因,只有当数据量足够大时,我们才有必要用内置函数去操作,用数据量来弥补函数内部定义本身带来的损失,如果只是简单的操作,比如上述在只有4列,对4个元素求和就没必要用内置函数了,杀鸡用了牛刀,反而会有性能损失。

       最后,我们使用apply的理由还有一个就是易读性,这对于熟悉pandas的人来说,apply的目的性更强,可读性也更强更简洁,这有时是一个很重要的理由。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值