LSTM& RNN模型学习（principle & practice）

最新推荐文章于 2023-04-09 21:54:51 发布

志yu

最新推荐文章于 2023-04-09 21:54:51 发布

阅读量361

点赞数

分类专栏： deep learning

本文链接：https://blog.csdn.net/ichglauben/article/details/88372042

版权

deep learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这个月忙着毕设，做的是森林覆盖率的预测使用的深度学习模型LSTM 之前是小白（虽说现在也是）趁着有时间就把今天学习的内容巩固回顾一下好了

1.RNN(Recurrent Neural Network)

首先想说，LSTM其实是RNN的一个变种，由于其解决了rnn网络模型的某些问题，更加广泛应用，因此大范围情况下主要使用的是LSTM.先从RNN介绍
RNN:拿说话举例子：如果需要预测下一句话要说的内容，肯定需要对当前的词语来进行推断，因此需要记得当前和之前说过的话。传统的神经网络无法完成这一任务，但是RNN可以解决。RNN包含循环的网络，允许信息持久化。
单个RNN循环：该神经网络模块A ,根据输入的前一个循环信息 $A_{t-1}$ 和 $X_{t}$ 并且经过激活函数输出一个当前值 $h_{t}$ 。其实RNN可以被堪称是同一神经网络的多次迭代，每个模块将信息传递给下一个，将其循环展开得到：

unfold diagram

在过去几年，rnn在语音识别语言建模翻译图片描述中获得成功建议参考这篇博文了解一下rnn的应用

在这里插入图片描述

RNN前向传播算法推导：

在这里插入图片描述

RNN反向传播算法

在这里插入图片描述

长期依赖问题(long term dependencies)

在简单的应用场景可以使用RNN实现，如 i am chinese.i love china.接下来的单词rnn预测是china 因此可以很简单的预测出来。

LSTM model

rnn

标准rnn只有单一层
LSTM MODEL重复层包括4个交互层

CORE IDEAS

在这里插入图片描述

关键是细胞状态。我们可以看作 $C_{t-1}$ 保存当前输入 $x_{t}$ 之前的状态 $h_{t-1}$
设计了一个gate 来控制信息的增加和减少
LSTM拥有三个门 input gate output gate forget gate

first step

决定从细胞状态中遗忘哪些信息由forget gate决定其根据 $h_{t-1}$ & $x_{t}$ 来输出一个0-1之间的值给每个 $c_{t-1}$ 的细胞状态 0表示遗忘 1表示记住
equation： $f_{t} = \sigma(W_{f} * [h_{t-1},x_{t}] + b_{f})$
在这里插入图片描述

second step

决定何种信息被存储分成2step

part 1

通过input gate的sigmoid层决定更新何种值
再由tanh层通过 $h_{t-1}$ 和 $x_{t}$ 得到新的候选向量 $\tilde{C_{t}}$

$i_{t} = \sigma(W_{f} * [h_{t-1,x_{t}}] + b_{f})$
$\tilde{C_{t}} = (W_{c} * [h_{t-1,x_{t}}] + b_{c})$

part 2

在这里插入图片描述

根据上一步得到的 $\tilde{C_{t}},i_{t}$ 以及forget gate得到的 $C_{t-1}$ 的值就可以更新细胞状态了：包含两部分 1.通过遗忘门的 $C_{t-1}$ 和 $f_{t}$ 的相乘 2.经过input gate的 $i_{t}$ 和 $\tilde{C_{t}}$ 之间的处理

Equation: $C_{t} =C_{t-1}*f_{t}+i_{t}*\tilde{C_{t}}$

last step

决定输出值该值由 $C_{t}$ 和输出门过滤的结果

在这里插入图片描述

1.将输出层的值通过sigmoid层过滤得到 $o_{t}$
2. $c_{t}$ 通过tanh层过滤使得值保持在[-1,1]
3.将前两项相乘即可
$o_{t}=\sigma(W_{0}[h_{t-1},x_{t}])$
$h_{t}=o_{t}*tanh(c_{t})$

实现部分参考这篇github

tensorflow基础教程

志yu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LSTM& RNN模型学习（principle & practice）

这个月忙着毕设，做的是森林覆盖率的预测使用的深度学习模型LSTM 之前是小白（虽说现在也是）趁着有时间就把今天学习的内容巩固回顾一下好了1.RNN(Recurrent Neural Network)首先想说，LSTM其实是RNN的一个变种，由于其解决了rnn网络模型的某些问题，更加广泛应用，因此大范围情况下主要使用的是LSTM.先从RNN介绍RNN:拿说话举例子：如果需要预测下...
复制链接

扫一扫