论文学习：深度循环神经网络用于时间序列预测

最新推荐文章于 2024-06-25 16:47:20 发布

iyangdi

最新推荐文章于 2024-06-25 16:47:20 发布

阅读量6.1k

点赞数 1

分类专栏： RNN 时间序列预测文章标签：神经网络预测

RNN 同时被 2 个专栏收录

15 篇文章 3 订阅

订阅专栏

时间序列预测

13 篇文章 15 订阅

订阅专栏

深度循环神经网络用于时间序列预测

原文：
Deep Recurrent Neural Networks for TimeSeries Prediction

Problem

文章简介内容和后面内容极大重合，有点不知所云
感觉前面废话有点多
文章内容很晦涩

摘要

增加隐藏层or增加反馈范围都会提高erro下降的速度

数据集：癫痫数据
(epileptic seizure suppression electro-stimulator)

1 Introduction

癫痫发作是一种异常现象，特征是：简短、偶发的急剧幅度变化
Detection算法探索从EEG信号中提取的特征

输入向量： $u_k$
特征向量： $v_k$
内部状态： $x_k$
转换函数： $f$ ，且有， $x_{k+1}=f(x_k,v_k)$
度量函数： $h$ ，且有， $\hat{z_k}=h(x_k,v_k)$
要想定义内部变量 $x_k$ ，尝试满足马尔科夫条件： $P(x_k|v_k,v_{k-1},...,v_0)=P(z_k|x_k,v_k)$

通常，预测算法的参数需要通过训练阶段来确定
两种训练方式：online & offline
offline：随着参数变化，offline训练需要重复（或者连续并行运行），同时detection算法需要根据新的参数更新
online：可以连续增长的训练自己，因此很有适应性

本文提及的framework:
输入序列： $U^{[k+1]}=\{u_1,u_2,...,u_{k+1}\}$
观测序列： $Z^{[k]}=\{z_1,z_2,...,z_k\}$ , $z_i=h(x_i,u_i)$ ，其中 $h$ 度量函数已知， $x_i$ 不可观测
$\hat{x}_{k+1|k}$ ，表示给定 $U^{[k+1]}$ 和 $Z^{[k]}$ ，估计 $x_{k+1}$
首先预测 $\hat{x}_{k+1|k}$ ，当得到 $z_{k+1}$ ，计算 $\{\hat{x}_{k+1|k+1},\hat{x}_{k|k+1},...,\hat{x}_{k-q+2|k+1}\}$ 作为predict-correct framework
predict-correct framework可以go back并且计算比 $\hat{x}_{k-q+2|k-q+1}$ 改进的估计 $\hat{x}_{k-q+2|k+1}$ ，因为当在 $k+1$ 时候发生了更加易于检测的事件，同时 $z_{k-q+2}$ 未知或信息不够，则可以用它来做正确的映射

深度神经网络可以自动的抽取相关高层次特征，不必手动的工程特征提取，避免不适任务的特征引起的性能丢失
网络深度和网络合并反馈都会增加训练的难度

DNN训练方法举例：
有监督的训练，结合或跟随不监督的预训练
这些训练方法的核心：
反向传播梯度下降

DNN训练方法举例：Back-Propagation Through Time(BPTT)
有点类似Feed-Forward networks
但是BPTT在误差超平面容易陷入浅层局部最优，传统的，为了避免这种情况，单元activation and/or 权重更新是随机的，并且两者是被赋值的，而不是计算出来的值。这些值的来源为适合的分布+时刻下的分布的计算值

很多问题都是在将非线性的当成线性来近似

如果从外部输入的转换穿过层的集合，到最后的输出被考虑了，那么这个转换就代表一个大程度的非线性

本文工作贡献
（1）DRNN作为一个统一的解决方案，可以自动提取相关变量，自动构建内部变量、预测时间序列
（2）多隐藏层、多法相传播的理论推演
（3）训练DRNN的方法：Back-Propagation 穿过Time-and-Space的训练方法
（4）权重计算的动态规划公式

2 时间序列与预测

数据：EEG记录的数据
记录进行了band-pass滤波处理，数字化
模型表示可以基于傅里叶变换

offline（batch）训练算法：
给定特征向量 $x_i$ 和目标 $z_i$ 对 $\{(x_i,z_i)\}^{i=N}_{i=1}$
训练遍历所有数据集，确定detection参数

online（incremental）训练算法：
用特定的初始值，初始化参数
给定单特征向量 $x_i$ 或者单特征目标向量 $z_i$ 对 $(x_i,z_i)$
如果只给定一个特征向量，只产生一个预测 $\hat{z_i}$
如果也给定一个目标特征向量对 $(x_i,z_i)$ ，则也更新其参数

度量：
SPC: specificity
SEN: sensitivity
ADR: aerage detection rate
SEN= $Y^+/(Y^++N^-)$
SPC= $N^+/(N^++Y^-)$
ADR=(SPC+SEN)/2
其中：
$Y^+$ =true positive
$N^+$ =true negtive
$Y^-$ =false positive
$N^-$ =false negtive

问题之一：
计算参数化函数的参数 $w=\{w_i\}^{i=M}_{i=1}$ ，以便当应用训练输入数据 $U=\{u_j\}^{j=N}_{j=1}$ ，会返回一些从 $\hat{Z}=\{\hat{z}_j=f_w(X_j)\}^{j=N}_{j=1}$ 计算来的和输出 $Z=\{z_j\}^{j=N}_j=1$ 计算来的度量数据，使这些度量最优