tranformer 在 图片遮挡,图片乱序等流域处理的很好
1. Axial Attention
用res50最后的特征图(14*14)当 transformer输入,降低序列长度,比如 Axial Attention(轴注意力)
现在横轴上做自注意力,再再纵轴上做自注意力,这样序列长度也是大大减小
2 ViT
吧图片分成 patch,用patch训练
大规模数据集做与训练,就可以更好的处理其他任务
引言的最后,放出最想说的结论
GPT NLP领域
3. method
把图片达成patch,因为图片是有顺序的,
所以,引入了position embedding。
只需要根据第一个元素的输出,确定分类
注意
小数据集,不适合用 VIT,更适合resnet
数据集越大,VIT效果越好
Transformer在视觉任务的应用
本文探讨了Transformer在计算机视觉领域的应用,重点介绍了AxialAttention和ViT两种方法。AxialAttention通过分别在特征图的水平和垂直轴上进行自注意力操作来减少序列长度。ViT则将图像划分为多个补丁(patch),并对这些补丁进行训练,适用于大规模数据集。
2430

被折叠的 条评论
为什么被折叠?



