DL-Paper精读:Vision Transformer

本文探讨了如何将Transformer应用于图像识别,通过将图像切割成patch并输入到原始Transformer中,创建了Vision Transformer (ViT)。研究发现,ViT在大规模数据预训练后,能在ImageNet等任务上取得优秀性能。尽管在小模型尺寸时,混合CNN的变体表现更好,但随着模型增大,ViT的优势显现。论文还展示了ViT在自监督学习的潜力。
摘要由CSDN通过智能技术生成

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://openreview.net/pdf?id=YicbFdNTTy

 

background

Transformer已经成为了NLP领域的“the model of choice”, 主流做法(如BERT, GPT等)一般为在一个巨大的文本库上进行预训练,然后再在 一个较小的具体任务数据集上进行fine-tune。受益于Transformer 结构的计算效率及可扩展性,尽管目前模型及数据集尺寸不断增长,Transformer结构仍未到达性能上限。

limit

但它在CV领域的应用依然很受限,受其启发,有一些工作采用了例如self-attention等结构,与CNN相结合,或者在保持CNN架构的情况下取代某些组件,虽然也获得了一些精度上的提升,但这些特殊的attention结构,目前还无法在实际硬件部署中获得加速效果。因此在CV领域依然是ResNet类型的结构占据主流。

novel point

本文将图片进行切片,直接将patch序列输入到原始的Transformer中(Vision Transformer, ViT),在classification任务上取得了最优的结构,证明了CNN的结构并不是必须的。同时该工作还证明了ViT直接在ImageNet等数据集上进行训练效果不是太好,但经过在超大数据集(JFT-300M等)上进行预训练,再迁移到ImageNet等任务上时,可以获得极高的精度。

metho

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值