如果有什么是清楚的,那就是“Python”。坦白地说,我甚至不能让你原来的解决方案起作用。而且,如果它真的起作用,我很好奇它是否比一个循环快。你比较过吗?
现在,既然我们已经开始讨论效率,这里有一些见解。
不管你做什么,Python中的循环天生就是慢的。当然,如果您使用的是pandas,那么您也可以在下面使用numpy,它具有所有的性能优势。只是不要通过循环破坏它们。这并不是说Python列表占用的内存比您想象的要多得多;可能比8 bytes * length要多得多,因为每个整数都可以包装成一个单独的对象,放在内存中的一个单独区域中,并由列表中的指针指向。
如果您可以找到某种方式来表示此函数而不进行循环,numpy提供的矢量化就足够了。实际上,我想知道是否有某种方法可以通过使用诸如A+B*C之类的表达式来表示它。如果你可以用Lapack中的函数构造这个函数,那么你甚至可以打败用优化编译的普通C++代码。
您还可以使用一种编译的方法来加速循环。请参阅下面关于numpy数组的Numba解决方案。另一种选择是使用PyPy,尽管您可能无法将其与pandas正确组合。In [140]: import pandas as pd
In [141]: import numpy as np
In [143]: a=np.random.randint(2,size=1000000)
# Try the simple approach
In [147]: def simple(L):
for i in range(len(L)):
if L[i]==1:
L[i] += L[i-1]