白话RNN系列（一）

最新推荐文章于 2024-08-26 10:53:48 发布

土豆钊

最新推荐文章于 2024-08-26 10:53:48 发布

阅读量1.1k

点赞数

文章标签： RNN 深度学习

本文链接：https://blog.csdn.net/u013384984/article/details/86548062

版权

RNN，循环神经网络，全称Recurrent Neural Network。

本文，从RNN的基本原理讲起，会探讨RNN的前向传播和反向传播，并通过一些浅显易懂的小例子，展示RNN这个东东的神奇之处，尽最大可能以通俗易懂的方式，让看到本文的童鞋都能够掌握RNN。

1：RNN的基本原理

即便是RNN，也依旧脱离不了神经网络的基本架构，换句话说，我们看RNN的时候，一定要记住一句，它不过是高级一些的神经网络而已，其深层也不过是神经网络而已，没什么可怕的。

我们先拿个神经网络来做例子：

è¿éåå¾çæè¿°

上图展示的是最基础的神经网络，即全连接神经网络，除了最左侧的输入层和最右侧的输出层，其他均为隐藏层，其之所以叫做全连接神经网络，从图中我们也可以看出，输入元素会与隐藏层的每一个节点产生连接，同时，隐层的每个节点又会与下一层的所有节点产生连接，因此，叫做全连接神经网络。

而我们神经网络最终的目的是什么？求取的实际上是一个权重矩阵。

举个例子来说，如上图，我们可以看到输入层有五个节点，可以假设一个输入有五个特征的向量，如X=（x1,x2,x3,x4,x5）。

而隐藏层只有四个节点，这时候，我们需要一个维度为5*4的权重矩阵W，将其转化为4个特征的向量，而这个权重矩阵，就是我们最终需要的东西。

有些童鞋会提到偏置，我们这里不予考虑，或者可以将其简化入权重矩阵内。

那是不是神经网络就是这一层层的权重矩阵相乘，最后得到一个我们需要维度的输出呢？比如说最终我们需要做一个softmax的多分类，比如常见的手写字体识别，是不是最后输出一个十个维度的的向量，交给softmax就可以了呢？

显然不是。

这种方式下，可以看出，就成了完全的线性变换，如输入层与第一隐层之间的权重矩阵为W1,第一隐层与第二隐层之间的权重矩阵为W2，循环往复，最终的输出可能为：

Y = W1 * W2 * ···Wn * X

前面的多个矩阵的乘积，与一个单独的矩阵没什么本质区别，换句话说，我们多个隐层的存在是没有意义的，我们完全可以用一个简单的线性变换来完成我们的工作。

讨论到此结束，大家都去琢磨线性变换就可以了。

但是，神经网络绝不是那么简单的，其在线性变换的同时，于隐藏层的神经元内，做了非线性变换，线性变换与非线性变换的结合，最终完成了很多不可思议的任务。

必须注意，直到这里，我们谈论的也只是全连接神经网络，而其妙处，则是在隐藏层神经元上，我们看下隐藏层神经元的结构：

这是简单的M-P神经元模型，图片来自于周志华老师的机器学习一书；这里，我们单独看隐藏层的一个节点，其他节点的处理雷同。

上面所说的输入层与第一隐层之间的权重矩阵，其维度为5*4，原因在于，我们输入的特征是5维的，而隐藏层神经元的个数为4层；换算到这里，就相当于n=5,我们用一个隐藏层节点来分析的话，会发现对于这个节点来说，我们输入向量实际上是左乘了一个5维的向量，得到了一个实数。

向量乘法很简单：（1 * 5） * （5 * 1），得到一个实数；前面的1 * 5 是输入层与第一个神经元之间的权重关系，那么，如果隐藏层神经元为4个的话，我们把四个权重向量堆叠成权重矩阵，自然而然得到了一个 4 * 5 的权重矩阵；而这个权重矩阵与输入向量乘积，得到的则是一个 4 * 1的向量，正好对应于隐藏层神经元，每个节点的输出。

我们在吴恩达老师的课程中会看到，其写的是权重矩阵的转置，即这里的4 * 5 是权重矩阵的转置，实际上的权重矩阵应该是5 * 4的矩阵。

但是，这对于问题的理解并无影响，只是写起来更加方便，我们可以轻松地通过输入层的特征数目 * 隐藏层神经元的数目，得到第一个权重矩阵的维度。

在代码中的实现形如（手写字体的部分代码）：

x = tf.placeholder(tf.float32, [None, 784])
y = tf.placeholder(tf.float32, [None, 10])
keep_prob = tf.placeholder(tf.float32)
# 自己定义一个学习率
lr = tf.Variable(0.001, dtype=tf.float32)

# 设计第一层神经网络 ： 784 * 2000
# 因为输入样本是784维向量，而输出时2000个神经元
W1 = tf.Variable(tf.truncated_normal([784, 500], stddev=0.1))
b1 = tf.Variable(tf.zeros([500]) + 0.1)
L1 = tf.nn.tanh(tf.matmul(x, W1) + b1)
L1_drop = tf.nn.dropout(L1, keep_prob)

手写字体识别的输入向量，是1 * 784维的，即具有784个特征的向量，而我们的权重矩阵，则是784 * 500维的，这种写法更好理解一些。

插了一些关于权重矩阵的闲话，我们继续看隐藏层神经元中隐藏的非线性变换。

常见的有sigmoid，tanh，relu等，我们通过矩阵与向量相乘得到的输入，在每个隐藏层节点内都会经过非线性变换，才能作为下一层神经元节点的输入。

神经网络就是这么简单，没什么神秘的地方，说起来加入了那么多东西，其实质也就是我们平日里见到的线性和非线性变换而已。

说了这么多，我们认真看下全连接神经网络到底存在什么缺点，才催生出后续的卷积神经网络和循环神经网络。

1：全连接，导致权重矩阵过大，同时特征会被割裂。

简单说，如果我们输入的是非常大的图片，比如1920 * 1920这种高清图片，光是输入特征的维度就高达百万级别，再加上隐藏层的的维度，比如说隐藏层设置128个节点，那第一个权重矩阵的维度就高达千万个参数，别忘了，我们还有偏置......

这个代价很高，如果全连接神经网络的层数再多一些，那计算代价，高的可怕，所以我们平常用到的全连接神经网络速度慢，就可以理解了。

特征割裂，是我对于不考虑特征之间相互关系的一个称呼，能看得出来，全连接建立在一个假设的基础上，即各个特征之间完全不存在相关关系，因此对于每个隐藏层节点而言，都有自己的权重，在一些情况下，这是合理的，但很遗憾，现在大多数数据都存在相关性，如果完全不考虑其相关关系，不仅权重矩阵过大，计算代价高，往往还不会得到理想的效果。

所以权值共享的概念被提了出来，在卷积神经网络和循环神经网络里，我们都可以看到其踪迹。

2：隐层内部的神经元互相之间，其实是没有任何连接的。

很简单，上面的图都可以看到这点，每个神经元节点的输出，只会不断向后传递，同一层神经元之间，不存在任何的相互关联。

乍一看，没啥问题；但随着我们处理的任务越来越多，尤其是NLP的高速发展，神经网络在NLP方面的缺陷就暴露出来，为什么？

每个人说一句话，都会掺杂进自己先前的背景知识，即记忆，一句话的前言和后语，通常都是有联系的，可惜的是，当前的神经网络解决这类问题效果不是很好，因为其不存在记忆。

在这种情况下，有人提出了循环神经网络，其实质在于，在隐藏层的神经元节点之间加入了联系，产生的效果就是，第一个神经元节点的输出，可以被第二个神经元节点获取到；同理，最后一个隐层神经元节点会接收到几乎上面所有神经元节点的输出（只不过最近的神经元肯定对其输入影响最大而已）。

通俗来说，就是RNN在分析每一句话的时候，会尽最大可能考虑前面用户输入的每个字，以期望达到一个比较好的效果，这是非常好的设想，也的确达到了不错的效果。

而这个RNN，就是我们接下来需要探讨的重点；其内部不仅有循环输入，同样也加入了权值共享，对于我们深入对其他神经网络的理解，很有帮助。