Forecasting at Scale
Abstract
预测是十分常见的数据科学任务,可用于企业的容量规划,目标设定,异常检测等。当时间序列多种多样并且缺少专家经验时,时间序列预测就变得尤其困难。本文提出了一种具有可解释参数的模块化回归模型。
Introduction
图1总结了用于大规模商业预测的"analyst-in-the-loop"方法。首先用具有参数可解释性的模型对时间序列进行建模[Modeling],然后对时序数据进行预测并用baseline的结果来衡量现有模型的预测效果[Forecast Evaluation]。当模型效果较差或者需要人工干预的时候,会进行人工干预[Surface Problems],接下来会检测预测结果并基于反馈调整模型[Visually Inspect Forecasts]。
Features of Business Time Series
图2展示了Facebook的Events(例如 create pages)对应的时间序列,显而易见的是时间序列数据有周期性的特征:以周或者年为周期,在圣诞节和新年有一个明显的下沉。这几种周期性的效果会自然的出现并且可以在人为产生的时间序列中被预测到。同时最后六个月的数据有一个明显的上升趋势,可能是因为新产品或者市场变化的影响。最后,这个数据也是有异常点的。下面图3展示了一些自动化的方法预测,其中有色曲线是对图2的时间序列数据进行预测,可以看出预测效果较差。
The Prophet Forecasting Model
接下来介绍prophet模型的具体算法细节&#