【梳理】Attention/Transformer/ViT

 核心公式:

①对QK的相关性进行数学建模

②softmax函数得到注意力的权重分配

③加权求和作用在V上

考察点:的尺度放缩

论文解释:当较大时,点积结果过大,会将softmax推到梯度极小的区域;

(过大的点积结果会使方差变大,造成训练时梯度更新的不稳定)

图示:

  • Transformer

1.采用编解码器结构

(左侧Encoder 右侧Decoder)

2.位置编码:

嵌入该token的位置信息

3.Multi-head Attention:见上

4.Add&Norm:

跳跃连接和层归一化

5.Feed Forward:conv+relu+conv

6.Masked Multi-head Attention:

遵循从左到右进行字符解码

图像展开的一维向量过大,将其切分成patch再展开后进行可训练的投影得到token;

(切分图像再展开会破坏图像的结构信息,现有方法会选择在feature map上分块)

1.由于该任务是做图像分类,所以加入了0号token,其输出结果为最后的类别预测;

2.位置编码:消融实验证明是否加入位置信息对实验结果的影响不大

                   (patch中包含有相对位置信息)

3.MLP:倒瓶颈结构(通道维度先增后减)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值