prophet outliers异常值

最新推荐文章于 2025-03-10 16:06:24 发布

编程小泓哥

最新推荐文章于 2025-03-10 16:06:24 发布

阅读量1.9k

点赞数 15

分类专栏： prophet教程

本文链接：https://blog.csdn.net/qq_33873431/article/details/98847605

版权

prophet教程专栏收录该内容

10 篇文章

订阅专栏

本文探讨了异常值如何影响Prophet的时间序列预测模型，包括趋势预测的合理性及不确定性区间的宽度。通过实例展示了异常值对预测结果的影响，并提供了处理异常值的有效方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

例子代码

https://github.com/lilihongjava/prophet_demo/tree/master/outliers

# encoding: utf-8
"""
@author: lee
@time: 2019/8/8 9:35
@file: main.py
@desc: 
"""
from fbprophet import Prophet
import pandas as pd


def main():
    df = pd.read_csv('./data/example_wp_log_R_outliers1.csv')
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=1096)
    forecast = m.predict(future)
    fig = m.plot(forecast)
    fig.show()

    df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
    model = Prophet().fit(df)
    fig = model.plot(model.predict(future))
    fig.show()

    df = pd.read_csv('./data/example_wp_log_R_outliers2.csv')
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=1096)
    forecast = m.predict(future)
    fig = m.plot(forecast)
    fig.show()

    df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
    m = Prophet().fit(df)
    fig = m.plot(m.predict(future))
    fig.show()


if __name__ == "__main__":
    main()

异常值有两种主要方式可以影响prophet的预测。以下，我们对之前例子中记录维基百科中R语言页面访问数的数据进行预测，但是我们造了一段问题数据(2010-01到2010-05都是5，2010-06到2011-01都是8，2010-06-01为6.76272950693188)：

df = pd.read_csv('./data/example_wp_log_R_outliers1.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

趋势预测看似合理，但不确定性区间似乎过于宽泛。Prophet能够处理历史数据中的异常值，但只能通过趋势变化来拟合它们。不确定性模型预计未来趋势变化的幅度与历史是相似的。

处理异常值的最佳方法是删除它们 - prophet对丢失数据是不影响的。如果将历史数据的值设置NA为但在future里保留对应的日期，则Prophet将能提供其值的预测。

df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
model = Prophet().fit(df)
fig = model.plot(model.predict(future))

在上面的例子中，异常值扰乱了不确定性估计，但没有影响预测值yhat。情况并非总是如此，例如在以下示例中添加了异常值：

df = pd.read_csv('./data/example_wp_log_R_outliers2.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

此例中，在2015年6月造了一组极端异常值的数据来扰乱季节性估计，因此它们将影响到预测的值。和上个例子一样，正确的方法是删除它们：

df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
m = Prophet().fit(df)
fig = m.plot(m.predict(future))

参考资料：

https://facebook.github.io/prophet/docs/outliers.html