> 原作者:https://www.deeplearningai.net/classroom/Sequence_Models
第一周 循环序列模型(Recurrent Neural Networks)
**【基础】**
1.1 为什么选择序列模型?(Why Sequence Models?)
应用案例
1.2 数学符号(Notation)
符号化
one-hot表示
1.3 循环神经网络模型(Recurrent Neural Network Model)
传统网络缺陷
单向架构及缺陷
前向传播、激活函数及向量化简化
1.4 通过时间的反向传播(Backpropagation through time)
交叉熵及整个序列的损失函数
【进阶】
1.5 不同类型的循环神经网络(Different types of RNNs)
多样式架构
1.6 语言模型和序列生成(Language model and sequence generation)
语言模型:句子到概率的映射
序列生成:RNN
1.7 对新序列采样(Sampling novel sequences)
1.7.1 基于词汇的语言模型
采样: 从RNN语言模型中生成一个随机选择的句子
1.7.2 基于字符的语言模型
模型
优点、缺点及应用趋势
1.7.3 采样举例(两种语境下)
【问题及对策】
1.8 循环神经网络的梯度消失(Vanishing gradients with RNNs)
梯度消失:难以捕获前后信息的长期依赖效应
梯度爆炸:数值溢出->梯度修剪
1.9 GRU单元(Gated Recurrent Unit(GRU))
基本
补充
1.10 长短期记忆(LSTM(long short term memory)unit)
公式比较: GRU与LSTM
流程图: LSTM及改进
性能比较: GRU与LSTM
【发展】
1.11 双向循环神经网络(Bidirectional RNN)
比较: 单向与双向架构
优缺点及实际应用: 双向架构
1.12 深层循环神经网络(Deep RNNs)
第二周 自然语言处理与词嵌入(Natural Language Processing and Word Embeddings)
【基础】
2.1 词汇表征(Word Representation)
One-hot编码:词间孤立,泛化能力差
词嵌入(词的特征表示):相似词间具相关性,泛化能力好
可视化词嵌入
2.2 使用词嵌入(Using Word Embeddings)
问题引入:学习词未出现在文本语料库中
解决:词嵌入与迁移学习
比较:词嵌入与人脸编码
2.3 词嵌入的特性(Properties of Word Embeddings)
类比推理:词向量及问题
解决:余弦相似度与相异度
词嵌入特性总结
2.4 嵌入矩阵(Embedding Matrix)
2.5 学习词嵌入(Learning Word Embeddings)
语言模型:学习嵌入矩阵(嵌入向量)
区别:学习词嵌入 or 建立语言模型
【模型1:Word2Vec(包括skip-gram模型改进:分级softmax分类器、负采样)】
2.6 Word2Vec
2.6.1 Skip-gram model: 通过监督学习问题,学习好的词嵌入模型
2.6.2 解决计算速度问题:分级softmax分类器、负采样(2.7)
分级softmax分类器:计算成本与词汇表大小的对数成正比,从而加速softmax分类
快速查词简介
实际情况与总结
2.6.3 模型补充比较:CBOW、Skip-gram
2.7 负采样(Negative Sampling)
重构监督学习问题:生成训练集
逻辑回归模型:将softmax问题转变为二分类问题,并进行迭代训练K+1个样本
选取K个负样本:词频重构
【模型2】
2.8 GloVe 词向量(GloVe Word Vectors)
模型简介
核心目标函数
可应用性:
虽不能保证嵌入向量的独立组成部分可理解(存在特征量潜在的任意线性变换),但最终可学习出解决问题的“平行四边形映射”
【应用、问题及解决】
2.9 情绪分类(Sentiment Classification)
问题简介
一般模型及缺陷
改进: 考虑词序的RNN模型、词嵌入的迁移泛化性
2.10 词嵌入除偏(Debiasing Word Embeddings)
问题引入:非预期形式偏见
解决步骤:确定无偏见趋势;中和步;均衡步
补充:通过线性分类器确定对立词,从而预测偏见趋势
第三周 序列模型和注意力机制(Sequence models & Attention mechanism
【基础】
3.1 基础模型(Basic Models)
模型1:RNN编码-RNN解码网络
模型2:CNN编码-RNN解码网络
3.2 选择最可能的句子(Picking the most likely sentence)
条件概率模型
最可能的句子:条件概率最大化
实现:贪心搜索 与 束搜索(3.3)
3.3 集束搜索(Beam Search)
一种近似搜索算法/启发式搜索算法
集束搜索第三步、第四步…
3.4 改进集束搜索(Refinements to Beam Search)
长度归一化:归一化的对数似然目标函数
束宽讨论及集束搜索补充
3.5 集束搜索的误差分析(Error analysis in beam search)
谁的锅?:Beam search or RNN
综合分析
3.6 Bleu 得分(选修)(Bleu Score (optional))
简介:改良精确度评估、二元词组、n元词组
补充:简短惩罚(BP)
实践应用
【进阶】
3.7 注意力模型直观理解(Attention Model Intuition)
问题:当被翻译句子长度增加,传统模型的翻译性能降低。
改进:注意力权重
3.8 注意力模型(Attention Model)
模型与注意力权重
缺点与应用
例子
【应用】
3.9 语音识别(Speech recognition)
问题简介
模型1: 注意力模型
模型2: CTC模型
3.10 触发字检测(Trigger Word Detection)
问题描述
模型结构
缺点与解决
3.11 结论和致谢(Conclusion and thank you)
第四周 Transformer网络
4.1 Transformer网络直觉(Transformers Intuition)
4.2 自注意力机制(self-Attention)
4.3 多头注意力机制(Multi-Head Attention)
4.4 Transformer网络(Transformers)