RNN教程

最新推荐文章于 2024-05-10 11:51:49 发布

lankuohsing

最新推荐文章于 2024-05-10 11:51:49 发布

阅读量741

点赞数

分类专栏：理论学习学习笔记文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/THUChina/article/details/79243619

版权

学习笔记同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

@(深度学习)[神经网络, RNN]

RNN教程

RNN教程

Introduction to RNN

在传统的前馈神经网络中，我们假定所有的输入（和输出）相互之间都是独立的。因此，前馈神经网络不能记住最近的历史训练信息，于是在处理序列模型时效果不佳。循环神经网络的提出就是为了解决这个问题的（Jordan et al. 1986, Elman et al. 1990）。RNN可以通过在隐藏层维护一个“状态向量”来充分利用序列的信息，状态向量可以隐式地包含序列中的所有元素。
RNN模型的输入是一个序列，这个模型一步处理序列中的一个元素。在计算完每一步后，更新的状态向量会传递给下一步的计算过程。下图是一个典型的RNN模型：
这里写图片描述

一个隐藏层单元数为1的RNN模型（左）以及它的在时间上的展开形式（右）
$t$ 时刻隐藏层的状态 $s_t$ 的输入来自 $t$ 时刻的输入值 $x_t$ 和 $t-1$ 时刻的状态 $s_{t-1}$ 。通过这种方式，RNN模型可将输入序列 $\left\{ x_t \right\}$ 映射到输出序列 $\left\{ o_t \right\}$ , 其中每个输出 $o_t$ 取决于所有的输入 $x_{t'}$ ( $t'\leq t$ )

然而，理论和实践都表明RNN很难学习到长期的依赖关系(Bengio et al, 1994)，因为当你利用基于梯度的方法来训练时，梯度会消失或爆炸。为了解决这个问题，一种更复杂的RNN模型——LSTM网络被提出来了.

Introduction to LSTM

所有的RNN都具有包含重复模块的链式结构网络。在RNN中，这种重复模块比较简单，例如通常为一个tanh函数。
这里写图片描述
LSTM也有这种链式结构, 但是它的重复模块的结构比标准的RNN要复杂许多，有4个小的结构。

通过合理地组织和开启一种称为“门”的结构，LSTM可以学习到它应该学习多久的信息, 什么时候开始遗忘, 什么时候学习新的信息, 以及如何将旧的信息和新的输入合理地结合起来。

f o r g e t g a t e : f t i n p u t g a t e : i t c a n d i d a t e c e l l s t a t e : C ~ t n e w c e l l s t a t e : C t o u t p u t g a t e : o t n e w h i d d e n v a l u e : h t = σ (W f \cdot [h t - 1, x t] + b f) = σ (W i \cdot [h t - 1, x t] + b i) = tanh (W C \cdot [h t - 1, x t] + b C) = f t * C t - 1 + i t * C ~ t = σ (W o \cdot [h t - 1, x t] + b 0) = o t * tanh (C t)

$\begin{align*} forget\ gate: f_t&= \sigma\left(W_f\cdot \left[h_{t-1},x_t\right]+b_f\right) \\ input\ gate: i_t&= \sigma\left(W_i\cdot \left[h_{t-1},x_t\right]+b_i\right) \\ candidate\ cell\ state: \tilde C_t&=\tanh\left(W_C\cdot \left[h_{t-1},x_t\right]+b_C\right) \\ new\ cell\ state: C_t&=f_t*C_{t-1}+i_t*\tilde C_t\\ output\ gate: o_t&= \sigma\left(W_o\cdot \left[h_{t-1},x_t\right]+b_0\right) \\ new\ hidden value: h_t&=o_t*\tanh \left(C_t\right)\\ \end{align*}$
关于上图中LSTM结构的详细介绍见 Understanding LSTM Networks.

LSTM Variants

LSTM有许多变种，其中一种就是将输入门和遗忘门结合起来。 Gated Recurrent Unit(GRU) 就是这样的一个例子。它将输入门和遗忘门合并成一个更新门，并且它把隐藏层状态和细胞状态合并起来。
这里写图片描述

lankuohsing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN教程

@(深度学习)[神经网络, RNN]RNN教程RNN教程Introduction to RNNIntroduction to LSTMLSTM VariantsIntroduction to RNN在传统的前馈神经网络中，我们假定所有的输入（和输出）相互之间都是独立的。因此，前馈神经网络不能记住最近的历史训练信息，于是在处理序列模型时效果不佳。循环神经网络的提出就是为了解决这个问题的（Jord
复制链接

扫一扫