「论文阅读」ViT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

本文介绍了如何将Transformer模型应用于图像领域,ViT通过将图像分割为小patch并进行线性嵌入,展示了其在大规模数据集上的优越性能,超越了传统的CNN模型。重点讲解了模型架构、Transformer在图像中的应用和与NLP模型的比较。
摘要由CSDN通过智能技术生成

目录

相关工作:

模型总体架构:


受到Transformer在NLP中扩展成功的启发,我们尝试将标准Transformer直接应用到图像上,并且尽可能少地进行修改。为此,我们将图像分割成小块,并将这些小块的线性嵌入序列(即图像小方块经过FC层映射到一个抽象空间上)作为变压器的输入。每个小块(Image patches)的处理方式和NLP的词嵌入向量的处理方式相同。

首先Transformer是比较吃数据的,作者在中等规模的数据集ImageNet上面测试了ViT,发现比ResNet的结果要低几个百分点,这也在作者的预料之中,文中给出的分析原因是因为ViT没有CNN那样的归纳偏置。

然鹅,作者在大规模的数据集上的训练,战胜了归纳偏置,战胜了当前模型的最优结果。

相关工作:

Transformer是2017年谷歌提出的,已经成为许多NLP任务的最先进的方法。BERT和GPT都是基于大型Transformer进行微调的预训练模型。

之前的Transformer应用在图像上面的很多工作有:1.对图片的每个像素计算自注意力;2.在图像的局部应用自注意力;3.在不同大小的块中应用注意力

另一个最近的相关模型是图像GPT (iGPT) ,该模型在降低图像分辨率和颜色空间后,将transformer应用于图像像素。该模型以无监督的方式作为生成模型进行训练,结果表示可以微调或线性探测分类性能,在ImageNet上达到72%的最大精度。

模型总

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值