吴恩达深度学习第五课--第一周RNN

最新推荐文章于 2023-05-14 15:54:57 发布

zhaohuan_1996

最新推荐文章于 2023-05-14 15:54:57 发布

阅读量268

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_37199669/article/details/107286848

版权

深度学习专栏收录该内容

33 篇文章 2 订阅

订阅专栏

文章目录

一、为何用RNN而不是CNN
- 1.2、BRNN
- 1.3、Deep RNNs
二、不同类型的RNNs
三、利用RNN解决现实生活的问题
- 3.1、建立语言模型
- 3.2、新的序列采用
四、RNN的缺点
- 4.1、梯度爆炸
- - 4.1.1、解决1：梯度剪枝:设定一个阈值，一旦梯度最大值达到这个阈值，就对整个梯度向量进行尺度缩小。
  - 4.1.2、解决2：LSTM

参考红色石头Will

一、为何用RNN而不是CNN

序列模型用tensorflow独热编码实现
CNN的缺点
- 不同样本的输入序列长度或输出序列长度不同
- CNN无法共享序列不同 $x^{<t>}$ 之间的特征
RNN模型如下：
- RNN正向传播过程为：

$a^{<t>}=g(W_{aa}a^{<t-1>}+W_{ax}x^{<t>}+b_a)$
$\hat y^{<t>}=g(W_{ya}a^{<t>}+b_y)$
为了简化表达式，对 $a^{<t>}$ 整合：
$W_{aa}a^{<t-1>}+W_{ax}x^{<t>}=[W_{aa} W_{ax}]\begin{bmatrix} a^{<t-1>} \\ x^{<t>} \\ \end{bmatrix}=W_a[a^{<t-1>},x^{<t>}]$
则正向传播可表示为：
$a^{<t>}=g(W_a[a^{<t-1>},x^{<t>}]+b_a)$
$\hat y^{<t>}=g(W_{y}a^{<t>}+b_y)$
- RNN反向传播过程为：
进过RNN正向传播，单个元素的loss function为：
$L^{<t>}(\hat y^{<t>},y^{<t>})=-y^{<t>}log \hat y^{<t>}-(1-y^{<t>})log(1-\hat y^{<t>})$
该样本的所有元素的loss function为：
$L(\hat y,y)=\sum_{t=i}^{T_y}L^{<t>}(\hat y^{<t>},y^{<t>})$
然后，反向传播过程就是从右到左分别计算 $L(\hat y,y)$ 对参数 $W_a,W_y,b_a,b_y$ 的偏导数。

1.2、BRNN

在这里插入图片描述
输出 $y^{<t>}$ 表达式为：
$\hat y^{<t>}=g(W_y[a^{-><t>},a^{<-<t>}]+b_y)$
特点：

模型能够考虑前面的信息，也能考虑后面的信息。
模型必须是一个完整的数据的序列，才能预测任意位置。

1.3、Deep RNNs

Deep RNNs由多层RNN组成，其结构如下图所示：
在这里插入图片描述
Deep RNNs中 $a^{[l]<t>}$ 的表达式为：
$a^{[l]<t>}=g(W_a^{[l]}[a^{[l]<t-1>},a^{[l-1]<t>}]+b_a)$

二、不同类型的RNNs

many to many: $T_x = Y_y$
many to many: $T_x \neq Y_y$
many to one: $T_x >1,T_y =1$
one to many: $T_x =1,Y_y>1$
one to one: $T_x =1, Y_y=1$

三、利用RNN解决现实生活的问题

3.1、建立语言模型

什么是语言模型？
计算某个语句的概率，选择概率最大的语句作为正确的翻译。
如何使用RNN构建语言模型？
需要一个由大量的单词语句语料库corpus构成的训练集，然后对corpus的每句话进行切分词tokenize（建立vocabulary，对每个单词进行one-hot编码）。
达到什么效果？
对语料库的每条语句进行RNN模型训练，最终得到的模型可以根据给出语句的前几个单词预测其余部分。
补充
整个语句出现的概率等于语句中所有元素出现的条件概率乘积。例如某个语句包含 $y^{<1>},y^{<2>},y^{<3>},$ 则整个语句出现的概率为：
$P(y^{<1>},y^{<2>},y^{<3>})=P(y^{<1>})*P(y^{<2>}|y^{<1>})*P(y^{<3>}|y^{<1>},y^{<2>})$

3.2、新的序列采用

利用训练好的RNN语言模型，可以进行新的序列采样，从而随机产生新的语句。
在这里插入图片描述

四、RNN的缺点

4.1、梯度爆炸

4.1.1、解决1：梯度剪枝:设定一个阈值，一旦梯度最大值达到这个阈值，就对整个梯度向量进行尺度缩小。

梯度消失
- 解决1：添加记忆单元c，构建GRU
  
  相应的表达式为：
  $\tilde{c}^{<t>}=tanh(W_c[\Gamma_{r}*c^{<t-1>},x^{<t>}]+b_c)$
  $\Gamma_{u}=\sigma(W_u[c^{<t-1>},x^{<t>}]+b_u)$
  $\Gamma_{r}=\sigma(W_r[c^{<t-1>},x^{<t>}]+b_r)$
  $c^{<t>}=\Gamma*\tilde{c}^{<t>}+(1-\Gamma_{u})*c^{<t-1>}$
  $a^{<t>}=c^{<t>}$
  注意：
  候选值： $\tilde{c}^{<t>}$ ，代替表示 $c^{<t>}$
  相关性门： $\Gamma_{r}$ ，计算出的下一个 $c^{<t>}$ 的候选值 $\tilde{c}^{<t>}$ 跟 $c^{<t-1>}$ 有多大的相关性。
  更新门： $\Gamma_{u}$ ，取值为0或1，0代表不更新，1代表更新。

4.1.2、解决2：LSTM

在这里插入图片描述
相应表达式：
$\tilde{c}^{<t>}=tanh(W_c[a^{<t-1>},x^{<t>}]+b_c)$
$\Gamma_{u}=\sigma(W_u[a^{<t-1>},x^{<t>}]+b_u)$
$\Gamma_{r}=\sigma(W_r[a^{<t-1>},x^{<t>}]+b_r)$
$\Gamma_{o}=\sigma(W_o[a^{<t-1>},x^{<t>}]+b_o)$
$c^{<t>}=\Gamma_u*\tilde{c}^{<t>}+\Gamma_{f}*c^{<t-1>}$
$a^{<t>}=\Gamma_{o}c^{<t>}$
参数详情：
更新门： $\Gamma_{u}$
遗忘门： $\Gamma_{f}$
输出门： $\Gamma_{o}$
如果考虑 $c^{<t-1>}$ 对 $\Gamma_{u}、\Gamma_{f}、\Gamma_{o}$ 的影响，可加入 $c^{<t-1>}$ ，则修改后的表达式为：
$\tilde{c}^{<t>}=tanh(W_c[a^{<t-1>},x^{<t>}]+b_c)$
$\Gamma_{u}=\sigma(W_u[a^{<t-1>},x^{<t>},c^{<t-1>}]+b_u)$
$\Gamma_{r}=\sigma(W_r[a^{<t-1>},x^{<t>},c^{<t-1>}]+b_r)$
$\Gamma_{o}=\sigma(W_o[a^{<t-1>},x^{<t>},c^{<t-1>}]+b_o)$
$c^{<t>}=\Gamma_u*\tilde{c}^{<t>}+\Gamma_{f}*c^{<t-1>}$
$a^{<t>}=\Gamma_{o}c^{<t>}$

zhaohuan_1996

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习第五课--第一周RNN

文章目录一、为何用RNN而不是CNN1.2、BRNN1.3、Deep RNNs二、不同类型的RNNs三、利用RNN解决现实生活的问题3.1、建立语言模型3.2、新的序列采用四、RNN的缺点4.1、梯度爆炸4.1.1、解决1：梯度剪枝:设定一个阈值，一旦梯度最大值达到这个阈值，就对整个梯度向量进行尺度缩小。4.1.2、解决2：LSTM参考红色石头Will一、为何用RNN而不是CNN序列模型用tensorflow独热编码实现CNN的缺点不同样本的输入序列长度或输出序列长度不同CNN无法共享序列不
复制链接

扫一扫