LSTM原理及实现（一）

最新推荐文章于 2024-03-19 22:08:57 发布

爱学习的小肥猪

最新推荐文章于 2024-03-19 22:08:57 发布

阅读量547

点赞数

分类专栏： LSTM

本文链接：https://blog.csdn.net/heima201907/article/details/103726979

版权

本文介绍了循环神经网络（RNN）的基本原理，包括其网络结构和反向传播算法，并着重讲解了为解决长期依赖问题而设计的LSTM网络，包括LSTM的结构、核心思想和实现方式。

摘要由CSDN通过智能技术生成

LSTM原理及实现
RNN

LSTM

实现

RNN基本原理
前言
当我们处理与事件发生的时间轴有关系的问题时，比如自然语言处理，文本处理，文字的上下文是有一定的关联性的；时间序列数据，如连续几天的天气状况，当日的天气情况与过去的几天有某些联系；又比如语音识别，机器翻译等。在考虑这些和时间轴相关的问题时，传统的神经网络就无能为力了，因此就有了RNN（recurrent neural network，循环神经网络），了解RNN先了解DNN基本原理。同样这里介绍RNN基本原理，也是为了铺垫我们的重点LSTM网络（long short term memory，长短时记忆神经网络）。

定义
递归神经网络（RNN）是两种人工神经网络的总称。一种是时间递归神经网络（recurrent neural network），另一种是结构递归神经网络（recursive neural network）。时间递归神经网络的神经元间连接构成矩阵，而结构递归神经网络利用相似的神经网络结构递归构造更为复杂的深度网络。RNN一般指代时间递归神经网络。

网络结构

图1.DNN基础结构
对于这样一个DNN正向传播的基础结构来说，我们的整个过程就是，将输入x与权重矩阵w结合，以wx + b的形式输入隐藏层（Layer L2），经过激活函数f(x)的处理，得到输出结果a1, a2, a3，然后与对应的权重、偏置结合，作为输出层（Layer L3）的输入，经过激活函数，得到最终输出结果。

图2.RNN基础结构
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split} …

其中g1 g_1g
1

常用tanh和Relu激活函数，g2 g_2g
2

常用sigmoid或者softmax.

BP
循环神经网络的训练类似于传统神经网络的训练。我们也使用反向传播算法，但是有所变化。因为循环神经网络在