python - 在NumPy中快速检查NaN
我正在寻找最快的方法来检查NumPy数组np.nan != np.nan中NaN(np.nan in X)的出现.np.isnan(X)是不可能的,因为它构建了一个形状为X.shape的布尔数组,这可能是巨大的。
我尝试了np.nan in X,但这似乎不起作用,因为np.nan != np.nan。是否有快速和内存效率的方法来做到这一点?
(对于那些会问“多么巨大”的人:我说不出来。这是图书馆代码的输入验证。)
7个解决方案
135 votes
Ray的解决方案很好。 但是,在我的机器上,使用min代替min快约2.5倍:
In [13]: %timeit np.isnan(np.min(x))
1000 loops, best of 3: 244 us per loop
In [14]: %timeit np.isnan(np.sum(x))
10000 loops, best of 3: 97.3 us per loop
与min不同,sum不需要分支,这在现代硬件上往往相当昂贵。 这可能是sum更快的原因。
编辑上面的测试是在阵列中间用一个NaN进行的。
值得注意的是,在NaN存在下,min比不存在时更慢。 随着NaN越来越接近数组的开头,它似乎也变慢了。 另一方面,无论是否存在NaN以及它们位于何处,sum的吞吐量似乎都是恒定的:
In [40]: x = np.random.rand(100000)
In [41]: %timeit np.isnan(np.min(x))
10000 loops,