【基础系列】赏析Andrew Ng教授《Deep Learning》ch5 序列模型

最新推荐文章于 2022-10-11 14:56:36 发布

常某某的好奇心

最新推荐文章于 2022-10-11 14:56:36 发布

阅读量631

点赞数

分类专栏：吴恩达《深度学习》和李沐《动手学深度学习 v2》文章标签：深度学习 rnn 机器学习

本文链接：https://blog.csdn.net/qq_42889517/article/details/124731208

版权

吴恩达《深度学习》和李沐《动手学深度学习 v2》专栏收录该内容

12 篇文章 0 订阅

订阅专栏

> 原作者：https://www.deeplearningai.net/classroom/Sequence_Models
在这里插入图片描述

第一周循环序列模型（Recurrent Neural Networks）
**【基础】**
1.1 为什么选择序列模型？（Why Sequence Models?）
应用案例
请添加图片描述
1.2 数学符号（Notation）
符号化
在这里插入图片描述
one-hot表示

1.3 循环神经网络模型（Recurrent Neural Network Model）

传统网络缺陷
在这里插入图片描述
单向架构及缺陷

前向传播、激活函数及向量化简化

1.4 通过时间的反向传播（Backpropagation through time）
交叉熵及整个序列的损失函数
请添加图片描述
【进阶】
1.5 不同类型的循环神经网络（Different types of RNNs）
多样式架构
在这里插入图片描述
1.6 语言模型和序列生成（Language model and sequence generation）
语言模型：句子到概率的映射

序列生成：RNN

1.7 对新序列采样（Sampling novel sequences）
1.7.1 基于词汇的语言模型
采样: 从RNN语言模型中生成一个随机选择的句子
在这里插入图片描述

1.7.2 基于字符的语言模型
模型

优点、缺点及应用趋势

1.7.3 采样举例(两种语境下)

【问题及对策】
1.8 循环神经网络的梯度消失（Vanishing gradients with RNNs）
梯度消失：难以捕获前后信息的长期依赖效应
在这里插入图片描述
梯度爆炸：数值溢出->梯度修剪

1.9 GRU单元（Gated Recurrent Unit（GRU））
基本

补充

1.10 长短期记忆（LSTM（long short term memory）unit）
公式比较: GRU与LSTM

流程图: LSTM及改进

性能比较: GRU与LSTM
在这里插入图片描述

【发展】
1.11 双向循环神经网络（Bidirectional RNN）
比较: 单向与双向架构
在这里插入图片描述

优缺点及实际应用: 双向架构

1.12 深层循环神经网络（Deep RNNs）

第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）
【基础】
2.1 词汇表征（Word Representation）
One-hot编码：词间孤立，泛化能力差
在这里插入图片描述

词嵌入(词的特征表示)：相似词间具相关性，泛化能力好

可视化词嵌入

2.2 使用词嵌入（Using Word Embeddings）
问题引入：学习词未出现在文本语料库中
在这里插入图片描述

解决：词嵌入与迁移学习

比较：词嵌入与人脸编码
在这里插入图片描述

2.3 词嵌入的特性（Properties of Word Embeddings）
类比推理：词向量及问题

解决：余弦相似度与相异度

词嵌入特性总结

2.4 嵌入矩阵（Embedding Matrix）

2.5 学习词嵌入（Learning Word Embeddings）
语言模型：学习嵌入矩阵(嵌入向量)
在这里插入图片描述
区别：学习词嵌入 or 建立语言模型

【模型1：Word2Vec(包括skip-gram模型改进：分级softmax分类器、负采样)】
2.6 Word2Vec
2.6.1 Skip-gram model: 通过监督学习问题，学习好的词嵌入模型

2.6.2 解决计算速度问题：分级softmax分类器、负采样(2.7)
分级softmax分类器：计算成本与词汇表大小的对数成正比，从而加速softmax分类
快速查词简介
在这里插入图片描述

实际情况与总结

2.6.3 模型补充比较：CBOW、Skip-gram
在这里插入图片描述

2.7 负采样（Negative Sampling）
重构监督学习问题：生成训练集

逻辑回归模型：将softmax问题转变为二分类问题，并进行迭代训练K+1个样本

选取K个负样本：词频重构

【模型2】
2.8 GloVe 词向量（GloVe Word Vectors）
模型简介
在这里插入图片描述

核心目标函数

可应用性：
虽不能保证嵌入向量的独立组成部分可理解(存在特征量潜在的任意线性变换)，但最终可学习出解决问题的“平行四边形映射”
在这里插入图片描述

【应用、问题及解决】
2.9 情绪分类（Sentiment Classification）
问题简介

一般模型及缺陷

改进: 考虑词序的RNN模型、词嵌入的迁移泛化性

2.10 词嵌入除偏（Debiasing Word Embeddings）
问题引入：非预期形式偏见
在这里插入图片描述
解决步骤：确定无偏见趋势；中和步；均衡步

补充：通过线性分类器确定对立词，从而预测偏见趋势

第三周序列模型和注意力机制（Sequence models & Attention mechanism
【基础】
3.1 基础模型（Basic Models）
模型1：RNN编码-RNN解码网络
在这里插入图片描述

模型2：CNN编码-RNN解码网络

3.2 选择最可能的句子（Picking the most likely sentence）
条件概率模型

最可能的句子：条件概率最大化

实现：贪心搜索与束搜索(3.3)

3.3 集束搜索（Beam Search）
一种近似搜索算法/启发式搜索算法
在这里插入图片描述
集束搜索第三步、第四步…

3.4 改进集束搜索（Refinements to Beam Search）
长度归一化：归一化的对数似然目标函数

束宽讨论及集束搜索补充

3.5 集束搜索的误差分析（Error analysis in beam search）
谁的锅？：Beam search or RNN
在这里插入图片描述
综合分析

3.6 Bleu 得分（选修）（Bleu Score (optional)）

简介：改良精确度评估、二元词组、n元词组

补充：简短惩罚(BP)

实践应用

【进阶】
3.7 注意力模型直观理解（Attention Model Intuition）
问题：当被翻译句子长度增加，传统模型的翻译性能降低。
在这里插入图片描述
改进：注意力权重

3.8 注意力模型（Attention Model）
模型与注意力权重

缺点与应用

例子

【应用】
3.9 语音识别（Speech recognition）
问题简介

模型1: 注意力模型

模型2: CTC模型
在这里插入图片描述
3.10 触发字检测（Trigger Word Detection）
问题描述

模型结构

缺点与解决

3.11 结论和致谢（Conclusion and thank you）

第四周 Transformer网络
4.1 Transformer网络直觉(Transformers Intuition)

4.2 自注意力机制(self-Attention)
在这里插入图片描述
4.3 多头注意力机制(Multi-Head Attention)
请添加图片描述
4.4 Transformer网络(Transformers)

常某某的好奇心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【基础系列】赏析Andrew Ng教授《Deep Learning》ch5 序列模型

> 原作者：https://www.deeplearningai.net/classroom/Sequence_Models第一周循环序列模型（Recurrent Neural Networks）**【基础】**1.1 为什么选择序列模型？（Why Sequence Models?）应用案例1.2 数学符号（Notation）符号化one-hot表示1.3 循环神经网络模型（Recurrent Neural Network Model）传统网络缺陷单向架构及缺陷前
复制链接

扫一扫

专栏目录