多元时间卷积网络:用于多元时间序列预测的深度神经网络方法
与我相关、相关知识
这篇文章的页数(包含reference)控制在18页,排版格式以及写作方式都是我可以借鉴的对象,虽然文章没有发好的期刊,但是相关工作做的很足,对比算法的描写也足够充分。
- 文章流程:
- 摘要Abstract、
简述多元时序预测的广泛使用,传统预测模型在预测精度上的劣势。
RNN和CNN等深度学习算法的优势,在于预测精度和最小化依赖
文章中提出的M-TCN的基本结构--基于深度卷积神经网络的多通道残差模块与非对称结构
列举对比算法:LSTM、ConvLSTM、TCN、MALSTM-FCN
- 1 介绍、2 背景、
- 问题背景 简述、预测关键问题在哪:变量的非周期性和非线性,导致模型无法捕捉和自适应复杂的数据特征。受到人工智能和深度学习方法的影响,一批方法被用在了NLP和CV领域,以及时序分类和时序预测上。受到NPL和CV的启发,引入了注意力机制、膨胀卷积以及残差网络。(Attention、Dilated convolution、residual structure)文章提出的M-TCN,用于非周期的多元时序预测。其结构特点在于:seq2seq、多通道、非对称残差网络。且用交叉验证方式进行测验。
- 背景/相关工作分三部分:
- 统计模型:ARIMA、ARMA、VAR,指数平滑等: 高额的计算成本和过拟合
- 机器学习:SVR、随机森林、岭回归、LASSO:无法包含多元大数据集的复杂非线性依赖
- 深度学习:RNN、CNN、LSTM、ConvLSTM、MALSTM-FCN:耗时,对非周期数据不够robust
- 多尺度混合模型:EMD、EEMD、mWDN、VMD:对复杂多变的时序数据不够通用
- 前沿工作:TCN、
- 3 方法论
- 3.1 时序问题描述 :从历史数据中获得一个理想的非线性映射,实现从历史数据到当前状态
- 3.2 baseline测试:naive预测模型、平均预测模型、季节性预测模型
- 3.3 ConvLSTM 编解码模型:
- encoder: ConvLSTM将整个输入序列压缩为一个隐藏状态张量
- decoder LSTM:解码器展开隐藏状态得到最终输出
- 3.4 M-TCN模型
- 优势:在不同的场景下输入输出的长度可变,使用一维卷积代替因果卷积、使用了两个不同的非对称残差模块,为每一种输入特征构建了一个子模型,最终结果由所有子模型组合得到
- 3.4.1 1D Convolution 一维卷积
- 因果卷积会导致序列之间可能存在的关系被其他参数影响
- 3.4.2 Dilated Convolution 膨胀卷积
- 池化操作会导致丢失参数信息
- 3.4.3 Residual Block 残差模块 ResNet
- 因为仅一小部分 残差网络学习不到有用的信息,因此采用并行的两个非对称残差网络结构
每一个通道都具有膨胀卷积和非线性,输出结果是两个通道之和
- 3.4.4 Fully Connected Layers 全连接层
- 用全连接层代替去全局平均池化,全连接层可以很好的改变通道输出的长度。
- 3. 4.5 Multi-Head Model 多头模块
- 为每一个输入变量都建立单独的子模块,每一个子模块通过不同的特征独立学习信息
- 3.5 训练过程
- 4 实验
- 4.1 数据集
- 4.2 数据预处理
- 数据01标准化
- 4.3 评价标准
- 均方根误差(RMSE)、根相对平方误差(RRSE)、经验相关系数(CORR)
- 4.4 前向验证 Walk-Forward Valdation
- 在时间序列建模中,随着时间的推移,预测变得越来越不准确,因此,当模型可用于进一步的预测时,采用实际数据重新训练模型是一种更为现实的方法。 由于训练统计模型并不耗时,因此,前向验证是获得最准确结果的最优选解决方案。
- 4.5 实验细节
- 这部分详细说明各部分参数的设置
- 4.6 实验结果
- Naive, Average and Seasonal persistent model,LSTM, ConvLSTM, TCN and MALSTM-FCN.等各种模型在评价指标上的结果对比
- 4.7 频谱分析 //检查数据集是否存在重复模式
- 许多物理信号均可以表示为许多不同频率简单信号的和。找出一个信号在不同频率下的信息(如振幅、功率、强度或相位等)的做法即为频谱分析
- 用于评价模型性能,介绍了一下频谱分析的公式,作图分析数据中是否存在重复的模式
- 4.8 消融测试
- 在膨胀卷积和ReLU函数之间添加Batch Normalization
- 将全连接层用全局平均池化代替
- 用相关指标对比图说明模型各个模块的合理性和必要性
- 4.9 模型效率
- 从时间角度,看各种模型的执行时间
- 5 结论
- 在以后的研究中,我们将重点放在基于高阶统计特征而不是完全连接的层的提取技术上,这可以减少模型的参数和训练时间。
5、之后的研究点
来自 <https://baike.baidu.com/item/%E9%A2%91%E8%B0%B1%E5%88%86%E6%9E%90/9851343?fr=kg_qa>