详解循环神经网络RNN（理论篇）

最新推荐文章于 2022-09-30 16:10:24 发布

zenRRan

最新推荐文章于 2022-09-30 16:10:24 发布

阅读量382

点赞数 1

阅读大概需要10分钟

跟随小博主，每天进步一丢丢

作者刘博

链接 https://zhuanlan.zhihu.com/p/32755043

简介

让我们从一个问题开始，你能理解下面这句英文的意思吗？“working love learning we on deep”，答案显然是无法理解。那么下面这个句子呢？“We love working on deep learning”，整个句子的意思通顺了！我想说的是，一些简单的词序混乱就可以使整个句子不通顺。那么，我们能期待传统神经网络使语句变得通顺吗？不能！如果人类的大脑都感到困惑，我认为传统神经网络很难解决这类问题。

在日常生活中有许多这样的问题，当顺序被打乱时，它们会被完全打乱。例如，

我们之前看到的语言——单词的顺序定义了它们的意义
时间序列数据——时间定义了事件的发生
基因组序列数据——每个序列都有不同的含义

有很多这样的情况，序列的信息决定事件本身。如果我们试图使用这类数据得到有用的输出，就需要一个这样的网络：能够访问一些关于数据的先前知识（prior knowledge），以便完全理解这些数据。因此，循环神经网络（RNN）粉墨登场。

在这篇文章中，我假设读者了解神经网络的基本原理。

这就像将输入给隐藏层一样。在所有时间步（time steps）（后面会介绍什么是时间步），循环神经元的权重都是一样的，因为它现在是单个神经元。因此，一个循环神经元存储先前输入的状态，并与当前输入相结合，从而保持当前输入与先前输入的某些关系。

理解循环神经元（Recurrent Neuron）的细节

让我们先做一个简单的任务。让我们使用一个字符级别的RNN，在这里我们有一个单词“Hello”。所以我们提供了前4个字母h、e、l、l，然后让网络来预测最后一个字母，也就是“o”。所以这个任务的词汇表只有4个字母h、e、l、o。在涉及自然语言处理的实际情况中，词汇表一般会包括整个维基百科数据库中的单词，或一门语言中的所有单词。为了简单起见，这里，我们使用了非常小的词汇表。

让我们看看上面的结构是如何被用来预测“hello”这个单词的第五个字母的。在上面的结构中，蓝色RNN块，对输入和之前的状态应用了循环递归公式。在我们的任务中，字母“h”前面没有任何其他字母，我们来看字母“e”。当字母e被提供给网络时，将循环递归公式应用于输入（也就是字母e）和前一个状态（也就是字母h），得到新的状态。也就是说，在t-1的时候，输入是h，输出是,在t时刻，输入是e和，输出是,这里每次应用循环递归公式称为不同的时间步。