不同方法的结果不同的原因是累加的舍入误差在求和除法期间更大.过去,滚动均值计算也遇到了类似的问题,但是似乎在过去几个版本中其算法的内部改进使它获得了更精确的结果.
首先,让我们确定新的滚动平均值结果更加精确.我们将通过两次调用和除法来做到这一点,但是每次都使用不同的精度:
In [166]: ser1 = pd.Series(data, index=pd.date_range('2008-05-28', '2008-06-06', freq='B'))
In [167]: type(ser1[0])
Out[167]: numpy.float64
In [168]: print "sum divide: %.17f" % (ser1['2008-6-1':'2008-6-6'].sum()/5)
sum divide: 0.99984100919839991
In [169]: ser2 = pd.Series(data, index=pd.date_range('2008-05-28', '2008-06-06', freq='B'), dtype = np.float128)
In [170]: print "sum divide: %.17f" % (ser2['2008-6-1':'2008-6-6'].sum()/5)
sum divide: 0.99984100919840002
使用更高的np.float128精度会导致该值更接近于新的滚动均值版本.这清楚地证明了新的滚动均值版本比以前的版本更精确.
这也建议您解决问题的一种可能的解决方法-通过定义序列以容纳np.float128对象来提高计算精度.这样可以提高和除法的精度,但不会影