李宏毅ML+DL学习记录：RNN

最新推荐文章于 2020-07-27 17:13:07 发布

缦旋律

最新推荐文章于 2020-07-27 17:13:07 发布

阅读量344

点赞数

分类专栏：李宏毅ML+DL

小陈一行一行地敲出来的啦~

本文链接：https://blog.csdn.net/weixin_41391619/article/details/104589923

版权

本文深入探讨RNN的工作原理，通过例子解释RNN如何处理序列信息并具备记忆能力。接着，文章介绍了RNN在训练中可能遇到的梯度消失问题，并引出LSTM（长短期记忆网络）作为解决方案。LSTM利用输入门、输出门和遗忘门来更有效地传递和保留信息，从而缓解梯度消失问题。

摘要由CSDN通过智能技术生成

引例:在买车票时，我们希望有一个网络，当我们说出“I would like to arrive at Taipei on November 2^nd”时，它能判断出我们的目的地是Taipei,希望到达的时间是November 2^nd.
我们把这称之为slot filling，这里的两个slot就是destination 和time of arrival。其实这个问题用一般的神经网络也能判断出Taipei是destination、November 2^nd是time of arrival，但是如果你说的是‘I would like to leave Taipei on November 2^nd，那么它还是会认为Taipei是destination，所以这样一来，一般的前馈神经网络就不怎么好了，NN needs memory！（需要NN记住前面是leave还是arrive）

一.RNN

1.RNN的前向传播

在这里插入图片描述
        蓝色的a1、a2就是用来存储记忆的。打了红色圈圈的线表示weight。在这个例子中我们假设这个RNN已经训练好了，所有激活函数都是线性的，所有的weight都是1，a1、a2的初始值都是0，我们来看看RNN是如何运作的。
在这里插入图片描述
        设第一个输入是[1,1],左边这个2是怎么来的呢？1 * w1+1 * w3+0 * w6+0 * w8=2;右边的2也是同样的思路，hidden layer（也就是图中的绿色）变成2,2之后，就把值存储在a1,a2中，所以a1,a2变成了2,2；然后继续向前：左边的4=2 * w10+2 * w12,右边的4也是同样的思路；这样第一个输入[1,1],输出就是[4,4]了。
在这里插入图片描述
        第二个输入仍然是[1,1],左边的6=1 * w1+1 * w3+2 * w6+2 * w8,右边同样道理；hidden layer变成6、6之后，把6、6存储到a1、a2中，所以a1、a2变成了6、6；继续向前，左边的12=6 * w10+6 * w12,右边的12也是同样的思路；这样第二个输入[1,1],输出就是[12,12]了。
        以上就是RNN运作的步骤，接下来看一下RNN在我们之前的那个引例上是如何工作的：
在这里插入图片描述
        我们假设激活函数还是线性的（只是为了这里方便演示），则
        a1 = x1*

最低0.47元/天解锁文章

缦旋律

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅ML+DL学习记录：RNN

引例:在买车票时，我们希望有一个网络，当我们说出“I would like to arrive at Taipei on November 2nd”时，它能判断出我们的目的地是Taipei,希望到达的时间是November 2nd.我们把这称之为slot filling，这里的两个slot就是destination 和time of arrival。其实这个问题用一般的神经网络也能判断出Taipe...
复制链接

扫一扫

专栏目录