A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction
Abstract
Question
①处理时间序列问题。
②RNN 结构共享一组梯度下降的训练参数(U,W,b),所以梯度在反向传播过程中,不断连乘,数值不是越来越大,就是越来越小,也就是长序列训练过程中的梯度消失和梯度爆炸问题。
③被编码的定长向量能力有限制,无法存储众多时间步骤的信息,当序列长度增加时候性能将大幅下降。
Method
第一阶段,使用注意力机制自适应地提取每个时刻的相关feature;第二阶段,使用另一个注意力机制选取与之相关的encoder hidden states。
Introduction
Model
DARNN:一种新的时间序列预测方法——基于双阶段注意力机制的循环神经网络
第一阶段
注意力机制
第二阶段
LSTM
解码阶段为了解决将输入个时间步的序列信息都编码到一个定长向量造成信息缺失,序列长多过长时表征能力差,性能低下问题所以也是用 attention机制,这里的 attention机制和常见的 seq2seq 中的 attention机制十分类似。
编码器利用 attention 机制自动的去选择编码器所有时间步中相关的 hidden state
预测
参考模型介绍
RNN
LSTM
Seq2seq
相关工作
与现有工作的区别
本文提出了一种新的基于双阶段注意的递归神经网络(DA-RNN),它由一个具有输入注意机制的编码器和一个具有时间注意机制的解码器组成。新引入的输入注意机制可以自适应地选择相关的控制序列。时间注意机制可以自然地捕获编码输入的长期时间信息。基于这两种注意机制,RNN滤波器不仅可以自适应地选择最相关的输入特征,还可以适当地捕捉时间序列的长期时间相关性。