一、传统的训练网络:
- 传统的RNN网络:
RNN网络不能并行
- 传统的word2vec:
- 预训练好的向量就永久不变了
二、注意力机制:
- 基本构架图:
- self-attention:(注意力机制)
- 相关程度: (利用内积得到相关程度)
- 利用softmax得到比例:
并且利用Scaled Dot-Product Attention去除了向量维度的影响
- Attention整体计算流程:
三、multi-headed机制:
一般来说最多8层
- 全连接来降维:
- multi-headed结果:
- 堆叠多层: