核心公式:
①对QK的相关性进行数学建模
②softmax函数得到注意力的权重分配
③加权求和作用在V上
考察点:的尺度放缩
论文解释:当较大时,点积结果过大,会将softmax推到梯度极小的区域;
(过大的点积结果会使方差变大,造成训练时梯度更新的不稳定)
图示:
-
Transformer
1.采用编解码器结构
(左侧Encoder 右侧Decoder)
2.位置编码:
嵌入该token的位置信息
3.Multi-head Attention:见上
4.Add&Norm:
跳跃连接和层归一化
5.Feed Forward:conv+relu+conv
6.Masked Multi-head Attention:
遵循从左到右进行字符解码
-
Vision transformer(ViT) [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arxiv.org)
图像展开的一维向量过大,将其切分成patch再展开后进行可训练的投影得到token;
(切分图像再展开会破坏图像的结构信息,现有方法会选择在feature map上分块)
1.由于该任务是做图像分类,所以加入了0号token,其输出结果为最后的类别预测;
2.位置编码:消融实验证明是否加入位置信息对实验结果的影响不大
(patch中包含有相对位置信息)
3.MLP:倒瓶颈结构(通道维度先增后减)