dataframe for循环_Numpy向量化优化dataframe数据处理效率

c6e503a38cb477451496d48b540a83bc.png

在进行业界大规模数据处理及特征工程的时候,往往需要对dataframe进行处理。而处理方式一般人会选择用apply的方式。

apply方式进行了一些底层的优化,相比直接对dataframe进行for循环效率高了很多。
但是使用了apply后,依然有很多优化的空间。

方法如下:

Pandas循环提速7万多倍!Python数据分析攻略

文中提到了一种用numpy进行优化的方法,但是当你真正执行的时候你会发现其具体实施过程解释的并不清楚。

至于为什么采用numpy会对pandas的循环有如此明显的效果优化,stack overflow给出了解释。

b410756336ec63f598c235e941748b10.png

那么了解numpy的优势之后,为优化代码,则需要将之前的方法替换成numpy的方式。这里我们以一个维度(16307, 20)的dataframe进行说明。目前涉及到优化方式的主要有以下三种:

1.直接进行values维度计算

利用timeit监测两种方式的运行时间

%%

567 µs ± 32 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%%

221 µs ± 19 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

在当前数据量并不大的情况下,速度只提升了一倍,如果在生产中使用values值进行计算的话优化效果更好。

2.利用np.vectorize代替apply

这里我们对上面计算的结果进行向上取整,采用两种方式对比,并用timeit监测运行时间。

%%

243 ms ± 16.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

def 

4.05 ms ± 162 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

可见采用np.vectorize方式,时间缩短了近60倍。

3.利用np.where代替apply

np.where类似于if…else语句,主要是用来进行条件判定和数据筛选。

%%

269 ms ± 31.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%%

1.59 ms ± 196 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

可见,np.where方式时间缩短了近170倍。

以上是最近工程中遇到的主要优化方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值