吴恩达深度学习笔记：RNN模型简介

最新推荐文章于 2024-07-08 08:15:02 发布

重学CS

最新推荐文章于 2024-07-08 08:15:02 发布

阅读量1.2k

点赞数 2

分类专栏： ML/DL

本文链接：https://blog.csdn.net/ha_ha_ha233/article/details/90170512

版权

ML/DL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

RNN model

1、Notation

吴恩达深度学习课程中采用了如下的记号
在这里插入图片描述
以命名体识别为例子来举例，如输入一句话，识别出哪个单词是人名，有以下句子：

He said,“Teddy Roosevelt was a great President”.

$N o t a t i o n :$

$T^{x}$ 表示输入序列的长度，如上面这句话有8个单词所以 $T^{x}=8$ ， $T^{y}$ 表示输出序列长度，本例中 $T^{x}=T^{y}$
$x^{<1>},\ x^{<2>}...x^{T_x}$ 表示输入语句的序列，如 $x^{<1>}$ 表示第一个单词He
$y^{<i>}$ 是根据已经输入的信息计算的结果，如果是二分类，如人名识别可以是0或者1，1表示 $x^{<i>}$ 是一个人名，比如第三个和第四个单词Teddy，Roosevelt是人名，所以希望 $y^{<3>}=1,y^{<4>}=1$
$a^{<i>}$ 是由 $x^{<i>}$ 和 $a^{i-1}$ (之前的信息)计算出来的激活值，其中 $a^{<0>}$ 是随机生成的向量

2、Forward Propagation

basic notation

符号 $w_{ya}$ 中的第一个下标表示这个参数最终要计算的是 $y$ ，而第二个参数表示这个参数将会乘以一个 $a$ ， $w_{aa}$ 同理

在这里插入图片描述

首先为了计算前向传播，现将上图蓝色框框住的参数进行随机初始化，包括 $a^{<0>},W_{aa},W_{ax},W_{ya}$
$a^{<0>} = \vec0,W_{aa},W_{ax},W_{ya}$
RNN的计算过程如上图中间的箭头方向所示，从左向右进行计算，每一时间步都有当前这一步的文本输入 $x^{<t>}$ ，和前一步的激活值 $a^{<t-1>}$ ，利用这些输入分别和对应的参数 $W_{ax},W_{aa}$ 进行线性运算再经过激活函数得到当前这步的激活值 $a^{<t>}$
$a^{<1>}=g_1(W_{aa}a^{<0>}+W_{ax}x^{<1>}+b_a), where\ g_1(x)\ can\ be\ sigmoid/tanh/Relu(X)...$

得到当前时间步t的激活值 $a^{<t>}$ 之后，用 $a^{<t>}$ 和对应的参数 $W_{ya}$ 进行线性运算再经过激活函数得到输出 $y^{<t>}$ ，如果需要输出多个值，激活函数可以选择 $s o f t m a x$ 激活函数
$y^{<1>}=g_2(W_{ya}a^{<1>}+b_y),where\ g_2(x)\ can \ be \ softmax(x)...$

$. . .$

每一步都按照上面的公式进行计算，并且每一步的参数 $W_{aa},W_{ax},W_{ya}$ 使用的都是同一套参数（在每个时间步上参数是共享的）
$a^{<t>} = g_1(W_{aa}a^{<t-1>}+W_{ax}x^{<t>}+b_a)$

$y^{<t>} = g_2(W_{ya}a^{<t>}+b_y)$

why RNN works?

RNN优点：
RNN 可以对整个句子序列进行表示，保持完整的上文信息。尤其是较长距离（超过卷积窗口）的词汇间的关联信息。（理论上）

在这里插入图片描述

从上图以及前向传播的过程可以看出：RNN的计算结果不仅仅取决于当前时间步的输入 $x^{<t>}$ ，而是在时间步t上加入了前一步的激活值 $a^{<t>}$ 从而综合考虑了前面 $x^{<1>},x^{<2>},...x^{<t-1>}$ 的输入对当前输出的影响。如上图中 $h_3$ 的输出不仅仅和 $x_3$ 有关，而且还受 $x_0$ 和 $x_1$ 的影响。正是因为RNN这种考虑当前输出不仅仅和当前输入有关，还与之前的输入有关的特性（可以称为RNN具有记忆能力，记忆了之前输入的信息），使得RNN对于序列数据具有很好的建模能力。

Simplified RNN notation

$a^{<t>} = g(W_{aa}a^{<t-1>}+W_{ax}x^{<t>}+b_a)$

$y^{<t>} = g(W_{ya}a^{<t>}+b_y)$

将 $w_{aa}$ 和 $w_{ax}$ 按列水平堆叠起来得到新的矩阵 $w_{a}$ ，
$W_a= \begin{bmatrix} W_{aa},W_{ax} \end{bmatrix}$

然后将 $a^{<t-1>}$ 和 $x^{<t>}$ 按行纵向堆叠起来得到：
$\begin{bmatrix} a^{<t-1>}\\ x^{<t>} \end{bmatrix}$
所以得到：
$W_a\begin{bmatrix} a^{<t-1>}\\ x^{<t>} \end{bmatrix}= \begin{bmatrix} W_{aa},W_{ax} \end{bmatrix} \begin{bmatrix} a^{<t-1>}\\ x^{<t>} \end{bmatrix}=W_{aa}a^{<t-1>}+W_{ax}x^{<t>}$
所以最初的公式可以简化如下：
$a^{<t>}=g(W_a\begin{bmatrix} a^{<t-1>}\\ x^{<t>} \end{bmatrix}+b_a)$

$y^{<t>}=g(W_ya^{<t>}+b_y),W_y=W_{ya}$

以上就是RNN的前向传播过程

3、Rough Sense of Backprop Works in RNN

前向传播的计算图如下：

在这里插入图片描述

首先前向传播：用 $a^{<0>}$ ， $x^{<1>}$ 计算出 $a^{<1>}$ ,由 $a^{<1>}$ 计算出 $\hat y^{<1>}$ ,到此完成了第一步的前向传播…以此类推由 $a^{<t-1>},x^{<t>}$ 计算出 $a^{<t>}$ ,然后由 $a^{<t>}$ 计算出 $\hat y^{<t>}$ ,到此完成了第t步的前向传播。

以下计算图中的红色箭头表示反向传播的步骤
在这里插入图片描述

首先定义在每一个时间步上的损失函数，这里使用交叉熵损失函数：
$L^{<t>}(\hat y^{<t>},y^{<t>})=-\hat y^{<t>}log(\hat y^{<t>})-(1-y^{<t>})log(1-y^{<t>})$
对每一时间步的损失加起来，得到总的损失：
$L=(\hat y, y)=\sum_{t=1}^{T^x}L^{<t>}(\hat y^{<t>},y^{<t>})$
反向传播的方向如上图红色箭头所示

4、Different types of RNNS

在这里插入图片描述

1、one-to-many

在这里插入图片描述

应用场景音乐生成，或者序列生成。给定一个整数表示序列、音乐的种类，然后生成一段序列、音乐

在这里插入图片描述

2、many-to-one

在这里插入图片描述

应用场景情感分类。给定一个文本序列，通过RNN模型给出对该段文本的情感评价，1-5的一个整数，越大表示文本情感越接近积极

在这里插入图片描述

3、many-to-many

在这里插入图片描述

3.1输入序列和输出序列长度相等

命名体识别。给定一段文本，识别文本中的人名，输出向量和输入的文本单词数一样（ $T^x=T^y$ ， $T^x$ 表示输入序列长度， $T^y$ 表示输出序列长度），输出向量中为1的表示该单词为名字，为0的表示不是。

在这里插入图片描述

3.2输入序列和输出序列长度不相等

在这里插入图片描述

机器翻译。给定一段文本将其翻译成另一种语言的文本（ $T^x \not = T_y$ ， $T^x$ 表示输入序列长度， $T^y$ 表示输出序列长度）

在这里插入图片描述

重学CS

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习笔记：RNN模型简介

RNN model1、Notation吴恩达深度学习课程中采用了如下的记号以命名体识别为例子来举例，如输入一句话，识别出哪个单词是人名，有以下句子：He said,“Teddy Roosevelt was a great President”.Notation:Notation:Notation:TxT^{x}Tx表示输入序列的长度，如上面这句话有8个单词所以Tx=8T^{x}=8...
复制链接

扫一扫

专栏目录