【Coursera】吴恩达 deeplearning.ai 05.序列模型第一周循环序列模型课程笔记

最新推荐文章于 2022-10-02 09:52:55 发布

ForcedOverflow

最新推荐文章于 2022-10-02 09:52:55 发布

阅读量571

点赞数

分类专栏： Coursera吴恩达deeplearning.ai 文章标签： Coursera DeepLearning 吴恩达

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014568072/article/details/80180725

版权

Coursera吴恩达deeplearning.ai 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

循环序列模型

为什么选择序列模型

在语音识别、音乐生成、情感分类、DNA序列分析、机器翻译、视频识别、命名实体识别等任务中，共同特点是输入X和/或输出Y都是序列。
这里写图片描述

数学符号

例如，对于命名实体识别的问题：

这里写图片描述

对于输入序列，用 $x^{<1>},x^{<2>},...,x^{<t>},...,x^{<9>}$ 来表示，其中 $x^{<t>}$ 表示 $t$ 位置的单词。
对于输出序列用 $y^{<1>},y^{<2>},...,y^{<9>}$ 来表示。
$T_x$ 表示输入序列长度， $T_y$ 表示输出序列长度，在本例中 $T_x=T_y=9$ 。
$x^{(i)<t>}$ 表示第 $i$ 个样本输入的第 $t$ 个位置的值， $T_x^{(i)}$ 表示第 $i$ 个训练样本的输入序列长度。
$y^{(i)<t>}$ 表示第 $i$ 个样本的输出第 $t$ 个位置的值， $T_y^{(i)}$ 表示第 $i$ 个训练样本的输出序列长度。

怎样表现句子里的某一个单词：

one-hot编码：在词典中，该词的编码为1，其余位置编码为0，形成该词的向量。

循环神经网络模型

无法选择标准的神经网络的原因：

在不同的样本中，输入输出长度都是可变的。
不共享跨文本不同位置学习的功能。

循环神经网络RNN

这里写图片描述

在每一个时间步中，循环神经网络传递一个激活值到下一个时间步中，用于计算。对于零时刻，则输入一个零向量（或者随机初始化的）作为伪激活值。
循环神经网络是从左往右扫描数据，同时每个时间步的参数也是共享的。
限制：在某一时刻的预测仅仅使用了序列中之前的输入信息，而没有使用该时刻之后的输入信息。（解决方法：双向循环神经网络BRNN）

RNN前向传播过程如下：
这里写图片描述

其中， $w_{ax}$ 表示与 $X$ 相乘的用来计算 $a$ 的权重，同理， $w_{ya}$ 表示与 $a$ 相乘的用来计算 $y$ 的权重。
这里写图片描述

穿越时间的反向传播

这里写图片描述

不同类型的循环神经网络

这里写图片描述

结构：
多对一：如文本输入
一对多：如音乐生成、序列生成等（输入一个数字等或空，输出一段·音乐）
多对多：如机器翻译，输入和输出的长度不同，因此网络分为编码器和解码器两个部分。

语言模型和序列生成

训练语料：大的英文文本。
预处理：
- 将句子标记化（tokenize）
- 将每个单词转化成one-hot编码，在句子结尾加上 <EOS> <script type="math/tex" id="MathJax-Element-45"> </script>标记。
- 对于训练集中不在字典中的词，用 <UNK> <script type="math/tex" id="MathJax-Element-46"> </script>代替。

RNN model

这里写图片描述

对新序列采样

即对词的概率分布进行采样，来生成一个新的单词序列。

这里写图片描述

带有神经网络的梯度消失

存在的问题：
RNN从左到右前向传播，由于梯度消失的原因，后面层的输出误差很难影响到前面层的计算。
梯度爆炸：采用梯度修剪的方法。
梯度消失则比较棘手（下一节GRU单元）

这里写图片描述

GRU单元

GRU(Gated Recurrent Unit)门控循环单元，通过改变RNN的隐藏层，使其能捕捉深层连接，并改善梯度消失的问题。

c ~ < t > = t a n h (W c [c < t - 1 >, X < t >] + b c)

$\tilde{c}^{<t>}=tanh(W_c[c^{<t-1>},X^{<t>}]+b_c)$

Γ u = σ (W u [c < t - 1 >, X < t >] + b u)

$\Gamma_u=\sigma(W_u[c^{<t-1>},X^{<t>}]+b_u)$

用 $\tilde{c}^{<t>}$ 计算记忆细胞 $c$ 的更新值，用 $\Gamma_u$ 来判断是否需要更新。

c < t > = Γ u * c ~ < t > + (1 - Γ u) * c < t - 1 >

$c^{<t>}=\Gamma_u*\tilde{c}^{<t>}+(1-\Gamma_u)*c^{<t-1>}$
由公式可以看出，如果

Γu Γ u $\Gamma_u$ 值为1，则说明需要更新，为0则保持原值。

这里写图片描述

公式中的 $c^{<t>}$ 、 $\tilde{c}^{<t>}$ 、 $\Gamma_u$ 可以是维数相同的向量，*代表元素对应相乘(element-wise)的乘法。

这里写图片描述

长短期记忆LSTM

LSTM(Long Short Time Memory)和GRU的对比图：

这里写图片描述
GRU中，有两个门： $\tilde{c}^{<t>}$ ——代替记忆细胞的候选值，还有 $\Gamma_u$ ——更新门来决定是否要更新。

这里写图片描述

双向神经网络 Bidirectional RNN

这里写图片描述

缺点：需要完整的数据序列，才能够预测任意位置。

深层循环神经网络 Deep RNNs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。