Coursera Deeplearning.ai「深度学习」课程笔记L5.W1循环序列模型

最新推荐文章于 2024-09-14 20:23:55 发布

XLearning88

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量253

点赞数

分类专栏：吴恩达deeplearning机器学习笔记文章标签：机器学习吴恩达深度学习

本文链接：https://blog.csdn.net/XLearning88/article/details/90289560

版权

吴恩达deeplearning机器学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

循环序列模型

1 - 序列模型数学符号
2 - 循环神经网络模型(Recurrent Neural Network, RNN)

1 - 序列模型数学符号

给定这样的输入数据 $x$ ，假如想要一个序列模型输出 $y$ 。

$x^{\langle t \rangle}$ ， $y^{\langle t \rangle}$ ：用 $t$ 来索引序列中的位置
$T_{x}$ ：输入序列的长度
$T_{y}$ ：输出序列的长度。 $T_{x}$ 和 $T_{y}$ 可以有不同的值。
$x^{\left(i \right)\langle t \rangle }$ ：第 $i$ 个训练样本的序列中的第 $t$ 个元素
$T_{x}^{(i)}$ ：第 $i$ 个训练样本的输入序列长度。
$y^{\left( i \right) \langle t \rangle}$ ：第 $i$ 个训练样本的序列中的第 $t$ 个元素，
$T_{y}^{(i)}$ ：第 $i$ 个训练样本的输出序列的长度。

符号	含义	符号	含义
$x^{\langle t \rangle}$	用 $t$ 来索引序列中的位置	$y^{\langle t \rangle}$	用 $t$ 来索引序列中的位置
$T_{x}$	输入序列的长度	$T_{y}$	输出序列的长度
$x^{\left(i \right)\langle t \rangle }$	第 $i$ 个训练样本序列中第 $t$ 个元素	$y^{\left( i \right) \langle t \rangle}$	第 $i$ 个训练样本序列中第 $t$ 个元素
$T_{x}^{(i)}$	第 $i$ 个训练样本的输入序列长度	$T_{y}^{(i)}$	第 $i$ 个训练样本的输出序列的长度

2 - 循环神经网络模型(Recurrent Neural Network, RNN)

2.1 - 图形表示

png

Figure 1. 循环神经网络RNN图示(引自DeepLearning.ai)

2.2 - 符号表示

在 $t$ 时刻，

$a^{\langle t \rangle} = g_{1}(W_{aa}a^{\langle t - 1 \rangle} + W_{ax}x^{\langle t \rangle} + b_{a})\tag{1}$

$\hat y^{\langle t \rangle} = g_{2}(W_{{ya}}a^{\langle t \rangle} + b_{y})\tag{2}$

矩阵下标： $W_{\text{ax}}$ ，第二个下标 $_x$ 意味着 $W_{\text{ax}}$ 要乘以某个 $x$ 类型的量，然后第一个下标 $_a$ 表示它是用来计算某个 $a$ 类型的变量。同样的， $W_{\text{ya}}$ 乘上了某个 $a$ 类型的量，用来计算出某个 $\hat {y}$ 类型的量。

简化符号：
$a^{\langle t \rangle} =g(W_{a}\left\lbrack a^{\langle t-1 \rangle},x^{} \right\rbrack +b_{a})\tag{3}$ $\hat y^{\langle t \rangle} = g(W_{y}a^{\langle t \rangle} +b_{y})\tag{4}$

${{W}{aa}}\vdots {{W}{ax}}]=W_{a}$ ，即 $W_{a}$ 是将矩阵 $W_{aa}$ 和矩阵 $W_{{ax}}$ 水平并列放置。
$\left\lbrack a^{\langle t - 1 \rangle},x^{\langle t \rangle}\right\rbrack$ 表示将这两个向量堆叠在一起。
$W_{y}$ 表明它是计算 $y$ 类型的量的权重矩阵，而 $W_{a}$ 和 $b_{a}$ 表示它们用来计算 $a$ 类型或激活值。

2.3 - 激活函数

循环神经网络用的激活函数经常是 tanh，不过有时候也会用 ReLU，但是 tanh 是更通常的选择。

2.4 - 损失函数

一个元素损失函数

$L^{}( \hat y^{},y^{}) = - y^{}\log\hat y^{}-( 1-\hat y^{})log(1-\hat y^{})\tag{5}$

标准逻辑回归损失函数，也叫交叉熵损失函数（Cross Entropy Loss）

整个序列的损失函数，将 $L$ 定义为

$L(\hat y,y) = \ \sum_{t = 1}^{T_{x}}{L^{\langle t \rangle}(\hat y^{\langle t \rangle},y^{\langle t \rangle})}\tag{6}$

2.5 - 通过（穿越）时间反向传播-backpropagation through time

RNN 反向传播示意图：
RNN 反向传播公式：

$a^{\langle t \rangle}=\tanh \left(W_{a x} x^{\langle t \rangle}+W_{a a} a^{\langle t-1 \rangle}+b\right)\tag{7}$ $\frac{\partial \tanh (x)}{\partial x}=1-\tanh (x)^{2}\tag{8}$ $\frac{\partial a^{\langle t \rangle}}{\partial W_{a x}}=\left(1-\tanh \left(W_{a x} x^{\langle t \rangle}+W_{a a} a^{\langle t-1 \rangle}+b\right)^{2}\right) x^{\langle t \rangle T}\tag{9}$ $\frac{\partial a^{\langle t \rangle}}{\partial W_{a a}}=\left(1-\tanh \left(W_{a x} x^{\langle t \rangle}+W_{a a} a^{\langle t-1 \rangle}+b\right)^{2}\right) a^{\langle t-1 \rangle T}\tag{10}$ $\frac{\partial a^{\langle t \rangle}}{\partial b}=\sum_{batch}\left(1-\tanh \left(W_{a x} x^{\langle t \rangle}+W_{a a} a^{\langle t-1 \rangle}+b\right)^{2}\right)\tag{11}$ $\frac{\partial a^{\langle t>}}{\partial x^{\langle t \rangle}}=W_{a x}^{T}\left(1-\tanh \left(W_{a x} x^{\langle t \rangle}+W_{a a} a^{\langle t-1 \rangle}+b\right)^{2}\right)\tag{12}$ $\frac{\partial a^{\langle t \rangle}}{\partial a^{\langle t-1 \rangle}}=W_{a a}^{T}\left(1-\tanh \left(W_{a x} x^{\langle t-1 \rangle}+W_{a a} a^{\langle t-1 \rangle}+b\right)^{2}\right)\tag{13}$