题目及信息
题目: 基于时域融合 Transformers 的可解释预测模型及其应用研究
发表于: 武汉理工大学学报(信息与管理工程版)
论文出自:基于时域融合 Transformers 的可解释预测模型及其应用研究
摘要
为了提高时间序列模型预测的准确性及可解释能力。提出了两部分组合模型:
-
变分模态分解(variational mode decomposition,VMD)
用于充分挖掘原始数据特征
- 将原始数据分解为多个模态,充分挖掘原始数据特征。
- 将分解结果输入到TFT预测模型中,得到可解释性的预测结果。
-
时域融合变换器(temporal fusion transformers,TFT)
在保证高性能预测的同时为预测过程提供一定的解释
- 分解的白卡纸价格子序列的重要性排序。
- 所提出的白卡纸的可解释预测方法可为从业者的相关决策提供有力的支撑。
研究背景
已有研究
-
结合经验模型分解和人工智能模型对风速进行预测,得出混合模型能提高预测精度的结论。
-
一种用于多视距时间序列预测的端到端深度学习预测模型,并在两个不同领域的大规模预测数据集上证明了该模型的有效性。
Multi - horizon time series forecasting with temporal attention learning
-
用变换器来解决时间序列预测问题。
Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting
-
提出了一个解释预测模型 SHAP,其能为每个特征分配一个特定预测的重要值。
-
将新的解释技术 LIME 加入到解释模型中,通过解释文本和图像分类等不同模型验证了方法的灵活性。
Why should I trust you: explaining the predictions of any classifier
-
对 ARIMA 等概率统计模型、支持向量机等机器学习模型、深度学习模型、模型分解方法等基本预测方法和组合预测方法进行对比分析,总结了各类方法的优点和局限性。
-
利用改进的 GARCH-MIDAS 模型提高了股票波动率的预测性能。
-
构建了基于长短时记忆网络( LSTM) 的高速铁路客流预测模型,证明了 LSTM 客流模型比其他模型预精度更高。
-
基于深度神经网络优化技术构造了一个深层 LSTM 神经网络,并将其应用于全球 30 个股票指数3 种不同期限的预测研究。
-
提出了融合变分模态分解( VMD) 、集合经验模态分解二层分解技术及长短期记忆深度神经网络的沪深300 股指收益率组合预测模型。
-
基于经验模态分解算法( EMD) 、遗传算法( GA) 、神经网络( BP) 等模型及其组合预测模型,对中国碳市场交易价格进行短期预测和长期预测。
提出问题
- 已有模型大多数是“黑盒”模型,即由各参数之间复杂的非线性交互来产生预测结果。
- 难以解释模型的预测过程
- 无法判断模型求解结果的可靠性
- 常用的深度神经网络( DNN ) 解释方法又不适用于时间序列,后置方法也没有考虑输入特征的时间或延迟。
- 在时间序列中时间步之间的相关性通常较为显著,所以后置方法会降低解释的质量。
- 也有学者提出了一种基于注意力的预测模型,可以用来解释时序数据。
- 不同于其他模型,多视界预测包含许多不同类型的输入特征,可为多视界预测提供相关的时间步,但不能在给定的时间步中标注不同特征的重要性。
基于时域融合Transformers的可解释预测模型
变分模态分解(VWD)
- VWD分解方法论文出自:Variational Mode Decomposition
- 一个完全非递归的模型,可捕获原始数据的不规则特征,是一种有效的信号分解方
法,比经验模态分解( EMD) 具有更好的适应性和分解效果。 - 在 VMD 中,原信号 f(t) 被 VMD 分解成多个子模态 uk,k = 1,2,…,K,每个子模态都有一个中心频率 ωk。
- VMD 的目标函数是使各子模态的频带宽度之和最小,约束条件为各子模态的频带宽度之和等于原始信号。
时域融合变换器(TFT)
-
TFT模型论文出自:Temporal Fusion Transformers for interpretable multi-horizon time series forecasting
-
一种内在可解释的多视界的时间序列预测深度学习模型,比一般黑盒模型具有更强的解释能力。
-
多水平预测问题通常包含复杂的输入,包括静态协变量、已知的未来输入和其他只有在历史上观察到的外生时间序列,而 TFT 将高性能的多水平预测与可解释的见解相结合。
-
利用静态协变量编码器来编码上下文向量; 利用门控机制和依赖于样本的变量选择,最大程度地减少无关输入; 序列到序列层,用于本地处理已知和观察到的输入; 时间自注意解码器,用于了解数据集中存在的任何长期依存关系。
-
TFT模型包括5个主要的组成部分。具体细节介绍请看之前的文章
模型应用分析
数据来源
白卡纸价格数据来源于:《造纸信息》期刊
预测性能评估指标
运用均方误差(RMSE) 、平均绝对百分比误差(MAPE) 和平均绝对误差(MAE) 3 个指标计算测试集的精度。
预测结果与讨论
单因素预测
使用向量自回归(VAR)模型来选择每月白卡纸价格预测合适的滞后阶数。VAR模型选择滞后阶数采用 4 个推荐指标:
- 赤池信息量准则(Akaike information criterion,AIC)
- 贝叶斯信息准则 (Bayesian information criterion,BIC)
- 最终预报误差准则( final prediction error,FPE)
- Hannan-Quinn 信息准则(HQIC)
AIC、BIC、FPE、HQIC 的最小值,且表示其推荐的最优滞后阶数。
模型的结果如表所示,AIC、FPE、HQIC 皆推荐 12 为滞后阶数,即用滞后 12 个月的白卡纸价格来预测当月的白卡纸价格最合适。
VMD-TFT 多因素可解释预测模型
-
为了减少白卡纸价格序列的非平稳特性,采用 VMD方法将原始价格序列分解为多个子模态。经过VMD 提取后的子序列比原数据更加平滑,有利于提高白卡纸价格预测的性能。
-
验证所提出的时域融合 TFT 模型的预测效果。选取以下对比算法:
- 流行的 BP 神经网络(BPNN)
- 支持向量机(SVM)
- 循环神经网络(RNN)
- 长短期神经网络(LSTM)
- 门控循环神经网络(GRU)
与单因素模型滞后12个月保持一致,多因素预测的滞后阶数也选择12个月。
-
实验结果:
-
预测结果对比:
-
各模型预测值与真实值对比图
对比 MAPE、RMSE、MAE 3 个性能指标可以看出,VMD-TFT模型的预测精度比 BPNN、SVM、RNN、LSTM、GRU及单因素 TFT 均有明显的提升,且 VMD-TFT 较其他模型能取得更贴近真实值的预测值。通过与单因素预测的结果对比可以发现,使用 VMD 分解后的预测模型比仅使用历史价格序列预测的 MAPE 值更低,证明其预测性能更加优异。 -
各输入变量可解释性权重
序列 S2、S3 对于白卡纸价格预测的贡献更大,S1 和 S4 的贡献较低。这是因为 S1 反映的是白卡纸价格波动的大致趋势,S4 反映的是分解后的残差,故其对预测的贡献较低。
结论
重点研究了变分模态分解和时域融合变换器相结合的高效可解释预测模型,VMD 有助于充分提取复杂数据中隐藏的特征,TFT 模型具备高效的预测性能,且能给出可解释性的预测过程。构建一个高效的白卡纸价格预测框架,可有效应对近年来白卡纸价格波动剧烈的挑战,为可解释预测的研究提供了新的应用。