RNN代码的简单理解

最新推荐文章于 2022-07-23 19:12:15 发布

贻我彤管

最新推荐文章于 2022-07-23 19:12:15 发布

阅读量1.9k

点赞数

分类专栏： RNN 文章标签： RNN python

本文链接：https://blog.csdn.net/sinat_41872531/article/details/81590246

版权

RNN 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考博客：https://blog.csdn.net/zzukun/article/details/49968129
https://www.cnblogs.com/YiXiaoZhou/p/6058890.html

这两篇文章已经非常详细的写了RNN的前向即反向传播吗。以及简单的实现代码
这里把我在学习过程中遇到的问题整理一下

首先RNN的前向不用说了，非常简单，与传统全连接层相比只是多了一个隐藏层对隐藏层的权值

反向传播的重点是要先计算出误差函数对输出层的偏导，以及误差函数对隐藏层的偏导
再用随机梯度下降来更新权值。
自己推导一下误差函数对W、U、V的导数就明白了

顺便复习一下梯度下降，从随机的一个点开始，求在该点的导数，设置步长（也可以说是学习率），每次下降步长x导数
即可得到更新的点
这就是权值更新的公式由来

原理大概就是这些，具体可以看上述文章

接下来是代码。代码实现的功能是训练模型实现两个数相加得到答案

首先设置输入，这里需要用二进制的输入，并且设定了二进制的最大位数为8。但我们先生成的数是十进制的，就需要用到unpackbit函数来将十进制的数转换为8位的二进制数

同时，由于设置了二进制最大位数为8，我们就能得到十进制的最大值是2的八次方
这样，在随机生成十进制数的时候，就需要设定能生成的最大值应该是2的八进制除2 ，防止最后的得数大于最大值从而导致溢出。

定义权值，以及用于更新权值的矩阵就不用说了，都懂

接下来开始循环，首先随机生成两个十进制数，得到加法得数，并从转换出来的对应二进制的列表（int2binary）中找到对应的二进制数。
定义d的大小与c相同，预备之后储存预测值的二进制
定义layer_2_deltas为空列表。预备之后储存输出层的导数值（这里要回顾一下RNN的反向传播，重点是要计算出误差函数对输出层的导数，还有误差函数对隐藏层的导数，这里就是其中的一个了）
定义layer_1_values为空列表。预备之后储存隐藏层的值
隐藏层的值在t=0的时候是初始化为0的，所以这里先添加了一个0向量进去。
接下来是循环8次，即一个二进制数的位数
循环中遍历了前面生成的二进制的两个数以及得到的二进制得数
用这两个二进制数作为RNN网络的输入，得数作为标签值
根据反向传播的公式，得到隐藏层layer_1（x是1x2的矩阵，synapse_0是2x16. layer_1_values是1x16, synapse_h是16x16.最后layer_1是1x16的矩阵），以及输出层layer_2（layer_1是1x16，synapse_1是16x1,.最后输出的layer_2就是一个数）
输出值layer_2通过sigmoid函数处理，输出的是一个0到1之间的小数

计算输出误差

计算输出层的导数，计算公式参考反向传播的公式（由于二进制数有八位数，每次循环只计算一位数对应的x,y，只计算一位数对应的误差，一位数对应的导数。所以每循环一次就要把这一位的append到layer_2_deltas列表中）
overallError是计算所有的误差，即八位数的每位数的误差相加，是一种误差度量值，这个值越小说明准确度越高

d[binary_dim - position -1] = np.round(layer_2[0][0]) 这一行，首先d是前面定义的一个全0的与c大小相同的矩阵，其次，np.round函数是一个四舍五入取整的函数，最后，layer_2是一个三维的数，它是这样的[[[layer_2]]]，所以layer_2[0][0]才能取到最里面的值。
综上，这一行表示输出的layer_2若大于0.5，则对应位数的预测值取1.若小于0.5，则对应位数的预测值取0

接下来复制当前的layer_1到layer_values中，这个就是，隐藏层的ht、 ht-1的事情。。嗯具体不说了，应该都懂

定义future_layer_1_delta为全0的大小为隐藏层节点数的向量（这个就是t+1时刻的误差函数对隐藏层的导数）
上个循环结束后开始下个循环（注意，这两个循环都是在第一个大循环下的小循环，这两个小循环是并列的关系）
上个循环是前向传播并计算误差
这个循环是反向传播并更新权值，同样循环次数是一个二进制的位数8。
从右到左取a,b为x
取当前的隐藏层参数，再取t-1时刻的隐藏层参数
取当前输出层的导数，计算当前隐藏层的导数（同根据反向传播公式）

用最开始定义的全零的权值网络矩阵储存得到的权值的梯度值
更新t+1时候的隐藏层导数
结束这个小循环

更新权值，用随机梯度下降，要把步长乘梯度值
把储存权值更新值的网络归零

贻我彤管

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
RNN代码的简单理解

参考博客：https://blog.csdn.net/zzukun/article/details/49968129 https://www.cnblogs.com/YiXiaoZhou/p/6058890.html这两篇文章已经非常详细的写了RNN的前向即反向传播吗。以及简单的实现代码这里把我在学习过程中遇到的问题整理一下首先RNN的前向不用说了，...
复制链接

扫一扫