Deep Learning Specialization 5: Sequence Models - Week 1 - Recurrent Neural Networks

du00

于 2019-11-17 22:34:55 发布

阅读量129

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/duh2so4/article/details/103114761

版权

笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

这周的内容还是比较多的，得反复看很多遍才能领会，尤其是在吃瓜子不吃瓜子就打瞌睡的情况下。

为什么要用RNN¹？

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U6tZCEp1-1574000997349)(evernotecid://3AE75992-3E67-4628-8ACC-2F41C6246321/appyinxiangcom/2727652/ENResource/p1631)]

1. 序列数据及问题示例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4YjAcq05-1574000997350)(evernotecid://3AE75992-3E67-4628-8ACC-2F41C6246321/appyinxiangcom/2727652/ENResource/p1632)]

从输入与输出数量不同可以分为：

many to many
- 长度相同：命名实体识别
- 长度不同：语音识别/机器翻译
many to one：情感分析/视频动作识别
one to many：音乐合成

2. 符号

$x^{<t>}$ : 一个样本中t时刻的值

$T_x$ : 输入序列的长度

$y^{<t>}$ ：一个样本中的第t个输出（不一定与 $x$ 对应）

$T_y$ ：输出的序列长度

3. 基本的RNN单元

$a^{<t>} = \tanh (W_{aa}a^{<t-1>} + W_{ax}x^{<t>} + b_a)$

$y^{<t>} = \text{softmax}(W_{ya}a^{<t>} + b_y)$

将W矩阵做列增广、a和x做行增广，可以简化写法（就是简单的 $1\times2$ 和矩阵和 $2\times1$ 的矩阵相乘）。
$a^{<t>} = \tanh (\left[ W_{aa} \vdots W_{ax} \right ] \begin{bmatrix} a_{<t-1>}\\ x^{<t>} \end{bmatrix} + b_a)$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MAHrRJoi-1574000997351)(evernotecid://3AE75992-3E67-4628-8ACC-2F41C6246321/appyinxiangcom/2727652/ENResource/p1633)]

图中 $a^{<0>} = \vec{0}$ 。

很明显图没有公式直观，但是看懂公式了再回过头来看图还是可以的。

4. Language model

RNN也是可以用来学习语言模型的，下图在老师的图上进行了一些修改。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YX7PQ612-1574000997352)(evernotecid://3AE75992-3E67-4628-8ACC-2F41C6246321/appyinxiangcom/2727652/ENResource/p1634)]

5. Gated Recurrent Unit (GRU)

RNN也面临严峻的Vanishing Gradients的问题，GRU是一种解决方案。

RNN Unit
$a^{<t>} = g(W_a \left[ a^{<t-1>}, x^{<t>} \right] + b_a)$
Gate RNN Unit
$\begin{matrix} \tilde{c}^{<t>}&= \tanh (W_c \left[ \Gamma_r \times c^{<t-1>}, x^{<t>} \right] + b_c) \\ \Gamma_u &= \sigma(W_u \left[ c^{<t-1>}, x^{<t>} \right] + b_u)\\ \Gamma_r &= \sigma(W_r \left[ c^{<t-1>}, x^{<t>} \right] + b_r)\\ c^{<t>} &= \Gamma_u \times \tilde{c}^{<t>} + (1-\Gamma_u) \times c^{<t-1>} \end{matrix}$
其中，

记忆单元 $c^{<t>} = a^{<t>}$
$\Gamma_u$ : update
$\Gamma_r$ : relevance

理解了计算逻辑之后，再用图片² 简化一下记忆。符号略有差异，但是应该对理解问题没有障碍。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t4MBuR1G-1574000997352)(evernotecid://3AE75992-3E67-4628-8ACC-2F41C6246321/appyinxiangcom/2727652/ENResource/p1636)]

6. Long Short Term Memeory (LSTM) network

LSTM Unit

Forget gate
$\Gamma_f^{<t>} = \sigma(W_f[a^{<t-1>}, x^{<t>}] + b_f)$
Update gate
$\Gamma_u^{<t>} = \sigma(W_u[a^{<t-1>}, x^{<t>}] + b_u)$
Updating the cell
$\begin{matrix} \tilde{c}^{<t>} & = \tanh(W_c[a^{<t-1>}, x^{<t>}] + b_c)\\ c^{<t>} & = \Gamma_f^{<t>} * c^{<t-1>} + \Gamma_u^{<t>} * \tilde{c}^{<t>} \end{matrix}$
Output gate
$\begin{matrix} \Gamma_o^{<t>} & = \sigma (W_o[a^{<t-1>}, x^{<t>}] + b_o) \\ a^{<t>} & = \Gamma_o^{<t>} * \tanh(c^{<t>}) \end{matrix}$