[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 10笔记

本文链接：https://blog.csdn.net/qweqwrqw/article/details/89048145

本文深入探讨了循环神经网络(RNN)及其在处理序列数据中的应用，特别是长短期记忆网络(LSTM)如何解决长序列依赖问题。通过实例介绍了RNN的工作原理、结构特点以及在机器翻译、语音识别等领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

内容列表

Lecture 10 Recurrent Neural Network
- - RNN
  - LSTM
小结

Lecture 10 Recurrent Neural Network

RNN

本章节主要探讨循环神经网络的内容，它与卷积神经网络略有不同，RNNs的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出：
在这里插入图片描述
上图展示了众多深度学习算法所注意的问题，一与多的问题，从左至右依次举例：传统方法、图片字幕提取、句子提取情感、字幕翻译、网络视频分类。

在上图中拿一个单词预测来举例，在预测的过程中比如输入依次为h、e、l、l，那么经过中间环节需要依次预测出当前字母所预测的下一个字母，这就需要之前的每一次都要参与预测，所以中间环节为：
在这里插入图片描述
最后的在整个序列中前向传播以计算损失，然后向后遍历整个序列以计算梯度：

其实RNN的用途非常的广泛，机器翻译，语音识别，图像描述合成，模仿写论文、故事、数学公式甚至是代码。

我们还可以使用RNN结合CNN来对图片进行造句：
在这里插入图片描述
首先将CNN移除最后的分类层与Softmax层，将最后的输出连接到RNN的中间层，从初始值START开始预测，最后一起进行反向传播，例如下图：

LSTM

LSTM全称Long Short Term Memory ，它与一般的RNNs结构本质上并没有什么不同，只是使用了不同的函数去去计算隐藏层的状态。在LSTM中，中间结构被称为cells，可以把cells看作是黑盒用以保存当前输入 $x t$ 之前的保存的状态 $h_{t−1}$ ，这些cells更加一定的条件决定哪些cell抑制哪些cell兴奋。它们结合前面的状态、当前的记忆与当前的输入。已经证明，该网络结构在对长序列依赖问题中非常有效：
在这里插入图片描述
其中cell结构就是 $c_t$ ，由 $i ， f ， o$ 三个二进制数控制（0或1），g是上层输出函数，看一下LSTM结构框图：