滑动窗口就是能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。
滑动窗口可以使数据更加平稳,浮动范围会比较小,具有代表性,单独拿出一个数据可能或多或少会离群,有差异或者错误,使用滑动窗口会更规范一些。
import numpy as np
import pandas as pd
df = pd.Series(np.random.randn(600), index=pd.date_range('7/1/2016', freq='D', periods=600))
print(df.head())
r = df.rolling(window=10)
print(r)
# Rolling [window=10,center=False,axis=0]
print(r.mean())
# 窗口计算的量 r.max, r.median, r.std, r.skew, r.sum, r.var
结果:
Rolling [window=10,center=False,axis=0,method=single]
2016-07-01 NaN
2016-07-02 NaN
2016-07-03 NaN
2016-07-04 NaN
2016-07-05 NaN
...
2018-02-16 -0.186094
2018-02-17 -0.071619
2018-02-18 -0.056907
2018-02-19 0.146923
2018-02-20 0.380557
Freq: D, Length: 600, dtype: float64
然后作个图
import matplotlib.pyplot as plt
plt.figure(figsize=(15, 5))
df.plot(style='r--')
df.rolling(window=10).mean().plot(style='b')
plt.show()
明显使用滑动窗口(蓝线)后更加稳定了。