白话RNN系列（二）

最新推荐文章于 2024-07-31 20:40:14 发布

土豆钊

最新推荐文章于 2024-07-31 20:40:14 发布

阅读量616

点赞数

分类专栏：深度学习机器学习 python 文章标签：深度学习 RNN

本文链接：https://blog.csdn.net/u013384984/article/details/86554212

版权

python 同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

机器学习

8 篇文章 0 订阅

订阅专栏

深度学习

7 篇文章 0 订阅

订阅专栏

紧接白话谈RNN系列（一）

上文讨论了基础的全连接神经网络，本文，我们来说说RNN。

首先，RNN相比于普通的神经网络，有什么改进？

两点比较突出：权值共享和隐层神经元节点的有序连接。

直接上图，浅显易懂：

è¿éåå¾çæè¿°

上图，摘自深度学习（花书），左侧图和右侧图表达了相同的含义，我们以右侧图为例，并配合实例，对RNN进行透彻的分析，我尽可能以很通俗移动的方式把RNN讲明白。

从本图中，我们很清晰能够看到权值共享的痕迹，我们可以把X理解为一句话，一个字符序列，后面的字符依赖于前面的字符（当然，这种结构肯定是不完善的，所以会有一些双向RNN等，这里咱不讨论）。

"I love you" 当成一句话，来作为我们RNN的输入，即x，那按照时间序列，第一次输入的就是I，第二次输入的就是love，第三次输入的则是you。

这里多说一句，大家会发现图中展示的结构好像与全连接网络有很大的不同，但实际上，我们仔细思考下全连接神经网络，实质就是输入向量与权重矩阵相乘，再经过隐藏层的激活函数，得到下一隐藏层的输入，而实际上，这里的U，如上图，其实就是我们前面所定义的权重矩阵。

而在自然语言处理内部，我们每个词输入的时候，其实输入的是一个one-hot向量，其大小为词表的大小，比如词表大小为100，而I 在其中排在第60的位置，我们输入的x1，其实就是一个一维向量，其大部分元素都是0，仅在index=60的位置上有一个1，当然，这种表达方式不尽完善，大家可以了解下词向量等，可能比one-hot效果好很多。

从上图中，我们看到每个隐藏层神经元都有两个输入，即h和x，这就是RNN隐藏层神经元的神秘之处，除了第一个神经元，余下的神经元都会把前一个神经元的隐藏状态拿来使用，配合本次输入x，拼接成一个大的输入向量使用。

而对于第一个神经元，其使用到的隐藏状态通常是自定义的全零的向量。

OK，我们继续。

重申下上面的定义：输入向量列向量：维度为100。

这里，假设我们的RNN隐藏神经元的数目是128，大家一定要注意，上面右侧的图是分解来来的，他们实际上用到的权值矩阵是完全一样的，其实更深层来说，他们所经过的神经元就是完全一样的，只是我按照时间序列，不断地把输入和上一次隐藏层状态的输入拼接在一起，再次填充给隐藏层的神经元。

输入向量是100维度，隐藏层神经元数目是128维，则之间的权重矩阵U应该是128 * 100 的矩阵，则 U * X 得到一个128 * 1的向量，这一步，跟全连接神经网络完全一致。

我们说了，t时刻的隐藏层的输出，会作为t+1时刻的输入，举个例子，最开始我输入了100维度的向量，得到了128维度的输出，那在第二秒的时候，我就会把这128维的向量，作为隐藏状态，再次输入到隐藏层中去。

因此，U和W是不同的，因为其处理的往往是不同维度的向量，U负责处理x，而W负责处理隐藏状态。

我们确定了U（100 * 128）的维度，现在来说下W的维度。

看看W接收到的输入是128 * 1的隐藏状态，所以W 肯定是N * 128 维度的矩阵。

我们知道： U * x + W * h(t-1) ，通常，我们会把x和h(t-1) 进行拼接，拼接出228 * 1的向量，同时把U和W进行堆叠，最终输出的才是隐层状态（其维度为128 * 1）。

则U和W的堆叠应该为128 * 228的矩阵，而实际上，这个拼接出来的矩阵应该是分块矩阵，其左上角是U，右下角是W。

形如： $\begin{bmatrix} U & W \end{bmatrix}$ 而同时x和h(t-1)的拼接则形如： $\begin{pmatrix} x\\ h(t-1) \end{pmatrix}$

后面的x和h(t-1) 均为列向量，拼接出来的维度为228 * 1。

则前面的矩阵大小，应该为128 * 228 ，最终产出的是128 * 1的隐藏层向量，其中U的大小为128 * 100，则W的大小毫无疑问为128 * 128。

很好理解，因为W处理的是隐层状态到隐层状态，其维度很容易确定（这些分析看似无意义，但对于实现代码是很有帮助的）。

稍微总结下：W的维度为128 * 128 ，U的维度为128 * 100 ，隐藏层神经元同时处理上一隐藏层的状态和本次的输入向量（228 * 1）,最终得到隐藏层的输出向量：128 * 1。

而这个隐藏层的输出，又会不断地向后面的神经元进行传递。

OK，到这里我们分析清楚了RNN产生的隐藏层输出的来龙，我们再看下隐藏层输出的去脉。

从解释图中可以看出，隐藏层的输出去了两个方向，一个产生了本次的输出，一个流向下一次状态，流向下一次状态的我们不讨论了，看下流向本次输出的隐层状态：

这里涉及到了一个新的矩阵：V，毫无疑问，又是一个全连接：V * h(t-1) 再加上激活函数，得到最终的输出o(t)。

看到了吧，RNN与普通的全连接神经网络区别并不大，只是其加上了权值共享（这里的权值共享的利用与卷积神经网络不完全一样，重要的是循环输入）。

上图中的大部分参数都说清楚了，但还有一个参数没详细介绍，即 t ,其表示当前输入的时刻，也代表了当前RNN循环的次数。

讲清楚了这个过程，RNN的前向传播很容易理解，我们这里举个使用RNN的例子，看下在实际实现中，RNN是如何发挥作用的；

直接找个代码例子进行分析，方便快捷：以下例子是从吴金洪老师的《深度学习之Tensorflow》一书拿到的例子：

需求：搭建一个简单的RNN神经网络，使用一串随机的模拟数据作为原始信号，让RNN来拟合其对应的回声序列，比如我们输入的样本数据为随机的由0,1组成的数字，将其当成发射出去的一串信号，当碰到阻拦会反弹回来后，会收到原始信号的回音

这个例子，需要几个步骤来进行，本文只介绍样本数据的产出，后续系列详情介绍程序的完整实现：

total_series_length = 50000
echo_step = 3
batch_size = 5
def generateData():
    x = np.array(np.random.choice(2, total_series_length, p=[0.5, 0.5]))  # 在0 和1 中选择total_series_length个数
    y = np.roll(x, echo_step)  # 向右循环移位【1111000】---【0001111】
    y[0:echo_step] = 0

    # 原本50000个元素，拆分成5个批次，每个批次是1000个
    x = x.reshape((batch_size, -1))  # 5,10000
    print(x.shape)
    y = y.reshape((batch_size, -1))  # 同样是5,10000
    print(y.shape)
    return (x, y)

这里，我们定义了一个产生数据的函数：

echo_step定义了我们产生回音的时间，比如我们输入50000个数字，在第三步才产生回音，则回音的前三个数字都会默认定义为0。

上面的np.random.choice函数，其参数中，2等同于range的作用，定义序列中数字为0,1；total_series_length定义序列总长度，p代表概率，即序列中每个元素为0和为1的概率均为0.5。

产生长度均为50000的输入序列x和回声序列y后，我们对齐进行reshape操作，变换为5*10000的矩阵，这里的reshape和numpy.reshape用途是一致的。

系列下文将对程序进行分析。