【基础系列】赏析Andrew Ng教授《Deep Learning》ch5 序列模型

> 原作者:https://www.deeplearningai.net/classroom/Sequence_Models
在这里插入图片描述

第一周 循环序列模型(Recurrent Neural Networks)
**【基础】**
1.1 为什么选择序列模型?(Why Sequence Models?)
应用案例
请添加图片描述
1.2 数学符号(Notation)
符号化
在这里插入图片描述
one-hot表示
在这里插入图片描述
1.3 循环神经网络模型(Recurrent Neural Network Model)

传统网络缺陷
在这里插入图片描述
单向架构及缺陷
在这里插入图片描述
前向传播、激活函数及向量化简化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
1.4 通过时间的反向传播(Backpropagation through time)
交叉熵及整个序列的损失函数
请添加图片描述
【进阶】
1.5 不同类型的循环神经网络(Different types of RNNs)
多样式架构
在这里插入图片描述
1.6 语言模型和序列生成(Language model and sequence generation)
语言模型:句子到概率的映射
在这里插入图片描述
序列生成:RNN
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
1.7 对新序列采样(Sampling novel sequences)
1.7.1 基于词汇的语言模型
采样: 从RNN语言模型中生成一个随机选择的句子

在这里插入图片描述
在这里插入图片描述
1.7.2 基于字符的语言模型
模型
在这里插入图片描述
优点、缺点及应用趋势
在这里插入图片描述
1.7.3 采样举例(两种语境下)
在这里插入图片描述
【问题及对策】
1.8 循环神经网络的梯度消失(Vanishing gradients with RNNs)
梯度消失:难以捕获前后信息的长期依赖效应
在这里插入图片描述
梯度爆炸:数值溢出->梯度修剪
在这里插入图片描述
1.9 GRU单元(Gated Recurrent Unit(GRU))
基本
在这里插入图片描述
在这里插入图片描述
补充
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
1.10 长短期记忆(LSTM(long short term memory)unit)
公式比较: GRU与LSTM
在这里插入图片描述
流程图: LSTM及改进
在这里插入图片描述
在这里插入图片描述
性能比较: GRU与LSTM
在这里插入图片描述

【发展】
1.11 双向循环神经网络(Bidirectional RNN)
比较: 单向与双向架构
在这里插入图片描述
在这里插入图片描述
优缺点及实际应用: 双向架构
在这里插入图片描述
1.12 深层循环神经网络(Deep RNNs)
在这里插入图片描述

第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings)
【基础】
2.1 词汇表征(Word Representation)
One-hot编码:词间孤立,泛化能力差
在这里插入图片描述
在这里插入图片描述
词嵌入(词的特征表示):相似词间具相关性,泛化能力好
在这里插入图片描述
在这里插入图片描述
可视化词嵌入
在这里插入图片描述
在这里插入图片描述

2.2 使用词嵌入(Using Word Embeddings)
问题引入:学习词未出现在文本语料库中
在这里插入图片描述
在这里插入图片描述
解决:词嵌入与迁移学习
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

比较:词嵌入与人脸编码
在这里插入图片描述
在这里插入图片描述
2.3 词嵌入的特性(Properties of Word Embeddings)
类比推理:词向量及问题
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
解决:余弦相似度与相异度
在这里插入图片描述在这里插入图片描述
词嵌入特性总结
在这里插入图片描述
2.4 嵌入矩阵(Embedding Matrix)
在这里插入图片描述在这里插入图片描述
2.5 学习词嵌入(Learning Word Embeddings)
语言模型:学习嵌入矩阵(嵌入向量)
在这里插入图片描述
区别:学习词嵌入 or 建立语言模型
在这里插入图片描述在这里插入图片描述
【模型1:Word2Vec(包括skip-gram模型改进:分级softmax分类器、负采样)】
2.6 Word2Vec
2.6.1 Skip-gram model: 通过监督学习问题,学习好的词嵌入模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述2.6.2 解决计算速度问题:分级softmax分类器、负采样(2.7)
分级softmax分类器:计算成本与词汇表大小的对数成正比,从而加速softmax分类
快速查词简介
在这里插入图片描述
在这里插入图片描述
实际情况与总结
在这里插入图片描述在这里插入图片描述

2.6.3 模型补充比较:CBOW、Skip-gram
在这里插入图片描述
在这里插入图片描述
2.7 负采样(Negative Sampling)
重构监督学习问题:生成训练集
在这里插入图片描述在这里插入图片描述
逻辑回归模型:将softmax问题转变为二分类问题,并进行迭代训练K+1个样本
在这里插入图片描述在这里插入图片描述在这里插入图片描述
选取K个负样本:词频重构
在这里插入图片描述在这里插入图片描述
【模型2】
2.8 GloVe 词向量(GloVe Word Vectors)
模型简介
在这里插入图片描述
在这里插入图片描述
核心目标函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可应用性:
虽不能保证嵌入向量的独立组成部分可理解(存在特征量潜在的任意线性变换),但最终可学习出解决问题的“平行四边形映射”

在这里插入图片描述
在这里插入图片描述
【应用、问题及解决】
2.9 情绪分类(Sentiment Classification)
问题简介
在这里插入图片描述
一般模型及缺陷
在这里插入图片描述
在这里插入图片描述
改进: 考虑词序的RNN模型、词嵌入的迁移泛化性
在这里插入图片描述在这里插入图片描述
2.10 词嵌入除偏(Debiasing Word Embeddings)
问题引入:非预期形式偏见
在这里插入图片描述在这里插入图片描述
解决步骤:确定无偏见趋势;中和步;均衡步
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
补充:通过线性分类器确定对立词,从而预测偏见趋势
在这里插入图片描述
第三周 序列模型和注意力机制(Sequence models & Attention mechanism
【基础】
3.1 基础模型(Basic Models)
模型1:RNN编码-RNN解码网络
在这里插入图片描述
在这里插入图片描述
模型2:CNN编码-RNN解码网络
在这里插入图片描述在这里插入图片描述
3.2 选择最可能的句子(Picking the most likely sentence)
条件概率模型
在这里插入图片描述在这里插入图片描述
最可能的句子:条件概率最大化
在这里插入图片描述在这里插入图片描述
实现:贪心搜索 与 束搜索(3.3)
在这里插入图片描述在这里插入图片描述在这里插入图片描述
3.3 集束搜索(Beam Search)
一种近似搜索算法/启发式搜索算法
在这里插入图片描述在这里插入图片描述在这里插入图片描述
集束搜索第三步、第四步…在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3.4 改进集束搜索(Refinements to Beam Search)
长度归一化:归一化的对数似然目标函数
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
束宽讨论及集束搜索补充
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
3.5 集束搜索的误差分析(Error analysis in beam search)
谁的锅?:Beam search or RNN
在这里插入图片描述
综合分析
在这里插入图片描述在这里插入图片描述
3.6 Bleu 得分(选修)(Bleu Score (optional))
在这里插入图片描述
简介:改良精确度评估、二元词组、n元词组
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
补充:简短惩罚(BP)
在这里插入图片描述在这里插入图片描述
实践应用
在这里插入图片描述
【进阶】
3.7 注意力模型直观理解(Attention Model Intuition)
问题:当被翻译句子长度增加,传统模型的翻译性能降低。
在这里插入图片描述
改进:注意力权重
在这里插入图片描述在这里插入图片描述
3.8 注意力模型(Attention Model)
模型与注意力权重
在这里插入图片描述在这里插入图片描述
缺点与应用
在这里插入图片描述
例子
在这里插入图片描述在这里插入图片描述
【应用】
3.9 语音识别(Speech recognition)
问题简介
在这里插入图片描述在这里插入图片描述在这里插入图片描述
模型1: 注意力模型
在这里插入图片描述
模型2: CTC模型
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
3.10 触发字检测(Trigger Word Detection)
问题描述
在这里插入图片描述
模型结构
在这里插入图片描述在这里插入图片描述
缺点与解决
在这里插入图片描述
3.11 结论和致谢(Conclusion and thank you)
在这里插入图片描述在这里插入图片描述在这里插入图片描述
第四周 Transformer网络
4.1 Transformer网络直觉(Transformers Intuition)
在这里插入图片描述
4.2 自注意力机制(self-Attention)
在这里插入图片描述
4.3 多头注意力机制(Multi-Head Attention)
请添加图片描述
4.4 Transformer网络(Transformers)请添加图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值