一文详解循环神经网络的基本概念（代码版）

最新推荐文章于 2024-06-16 18:20:04 发布

csdn_csdn__AI

最新推荐文章于 2024-06-16 18:20:04 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/heyc861221/article/details/80174463

版权

本文详细介绍了循环神经网络（RNN）的基本概念，包括其利用序列信息、递归特性和记忆机制。通过代码展示了RNN的前向传播计算，并讨论了双向RNN和深度RNN的扩展。作者还提供了简单的RNN代码示例，用于实现Char RNN语言模型。文章最后提到了LSTM和GRU等RNN变种，以及它们解决长距离依赖问题的方法。

摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

作者 | 李理

目前就职于环信，即时通讯云平台和全媒体智能客服平台，在环信从事智能客服和智能机器人相关工作，致力于用深度学习来提高智能机器人的性能。

写在前面

由于工作太忙，这个系列文章有一年多没有更新了。最近在整理资料时用到了里面的一些内容，觉得做事情应该有始有终，所以打算把它继续完成。下面的系列文章会首先会介绍 vanilla RNN 的代码，希望读者能够通过代码更加深入的了解RNN的原理。代码会着重于 forward 的介绍，而对 BPTT 一带而过。之前的文章为了让读者了解原理，我们都是自己来实现梯度的计算和各种优化算法。但是在实际的工作中，我们一般使用一些成熟的深度学习框架。因为框架把常用的算法都做了封装，我们的代码会更加简单而不易出错；此外框架的实现效率一般会比我们的更高，会利用 GPU 来加速训练。

我们之前在 CNN 的地方介绍了 theano，但是深度学习的发展变化也很快，theano目前已是一个死掉的项目。目前用户最多的深度学习框架是TensorFlow，但是在 RNN 方面，基于动态图的 PyTorch 更加方便，所以这个系列文章会使用 PyTorch。因此介绍过 vanilla RNN 之后会简单的介绍一下 PyTorch，尤其是 PyTorch 在 RNN 方面相关模块。然后会介绍一些 PyTorch 的例子，接下来会介绍 seq2seq(encoder-decoder) 模型和注意力机制，包括它在机器翻译里的应用，我们会自己实现一个简单的汉语-英语的翻译系统。

最后一部分就是我们的主题—— Image Caption Generation，有了前面 CNN 和 RNN 的基础，实现它就非常轻松了。

本章会介绍循环神经网络的基本概念。

基本概念

▌RNN

RNN 的特点是利用序列的信息。之前我们介绍的神经网络假设所有的输入是相互独立的。但是对于许多任务来说这不是一个好的假设。如果你想预测一个句子的下一个词，知道之前的词是有帮助的。RNN 被成为递归的 (recurrent) 原因就是它会对一个序列的每一个元素执行同样的操作，并且之后的输出依赖于之前的计算。另外一种看待 RNN 的方法是可以认为它有一些“记忆”能捕获之前计算过的一些信息。理论上 RNN 能够利用任意长序列的信息，但是实际中它能记忆的长度是有限的。

图5.1显示了怎么把一个 RNN 展开成一个完整的网络。比如我们考虑一个包含5个词的句子，我们可以把它展开成 5 层的神经网络，每个词是一层。RNN 的计算公式如下：

1. 640?wx_fmt=png 是 t 时刻的输入。