文章目录
【一】 Multimodal Learning(多模态学习)
- 多种模型的拼接(图片,文本,语音等的相互转换)
C N N ⇔ R N N / L S T M CNN \;\;\; \bm \red {\Leftrightarrow} \;\;\; RNN / LSTM CNN⇔RNN/LSTM
R N N / L S T M ⇔ R N N / L S T M RNN / LSTM \;\;\; \bm \red {\Leftrightarrow} \;\;\; RNN / LSTM RNN/LSTM⇔RNN/LSTM
. . . . . . ...... ......
【二】 Seq2Seq Model(序列到序列模型)
Mini-BatchTraining:为了可以使用矩阵运算(速度快),需要 mini-batch 的数据的长度一致,一个方法就是找到最长的那个,然后以此为基准,0 填充其他的数据
【三】 Evaluate Seq2Seq Model(评估模型效果)
问题:其实最原始的 Seq2Seq 模型,在 Decoder 部分是一种贪心算法(TOP1),每一步生成的都是当前 Softmax 最高(概率最大)的那个, 但有时候这样生成出来的结果只是考虑了局部最优化,并不是全局最优的
【3.1】 Beam Search(选取 Top K 个值作为候选)
- 在每一个 时间步骤 都采用 TOP K 的操作
- 为了解决生成长度不一致问题(遇到 <STOP> 就会结束,但是长度更长的可能效果更好),采用 均值 来衡量
【四】 End-to-End Learning(端到端学习)
将 Feature Extraction(特征提取)融入到 Modeling 中,让 Modeling 的过程 自动 提取特征
【4.1】 Good Representation:(Multiple Explanatory Factors - 多维度)
- 多角度,抓重点 的 Representation
- 例如:一个 100-dim 的向量,[ : 20 ] 表示人脸,[ 20 : 50 ] 表示亮度,[ 50 : ] 表示景色 …
【4.2】 Good Representation:(Hierarchical Representation - 层次)
- CV:汽车图片 ⇒ \Rightarrow ⇒ 纹路 ⇒ \Rightarrow ⇒ 轮胎 ⇒ \Rightarrow ⇒ 车架 ⇒ \Rightarrow ⇒ 整车
- NLP:一篇文章 ⇒ \Rightarrow ⇒ 音素 ⇒ \Rightarrow ⇒ 字 ⇒ \Rightarrow ⇒ 句子 ⇒ \Rightarrow ⇒ 段落 ⇒ \Rightarrow ⇒ 整文
【4.3】 Good Representation:(Low Dimensional Manifold - 低维空间)
- 好的 Representation 一般存在于 低维空间