DL-Paper精读：Vision Transformer

星月野

于 2021-02-13 18:34:25 发布

阅读量333

点赞数

分类专栏： paper阅读文章标签：计算机视觉人工智能机器学习深度学习

本文链接：https://blog.csdn.net/li6016265/article/details/113801953

版权

本文探讨了如何将Transformer应用于图像识别，通过将图像切割成patch并输入到原始Transformer中，创建了Vision Transformer (ViT)。研究发现，ViT在大规模数据预训练后，能在ImageNet等任务上取得优秀性能。尽管在小模型尺寸时，混合CNN的变体表现更好，但随着模型增大，ViT的优势显现。论文还展示了ViT在自监督学习的潜力。

摘要由CSDN通过智能技术生成

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

https://openreview.net/pdf?id=YicbFdNTTy

background

Transformer已经成为了NLP领域的“the model of choice”, 主流做法（如BERT, GPT等）一般为在一个巨大的文本库上进行预训练，然后再在一个较小的具体任务数据集上进行fine-tune。受益于Transformer 结构的计算效率及可扩展性，尽管目前模型及数据集尺寸不断增长,Transformer结构仍未到达性能上限。

limit

但它在CV领域的应用依然很受限，受其启发，有一些工作采用了例如self-attention等结构，与CNN相结合，或者在保持CNN架构的情况下取代某些组件，虽然也获得了一些精度上的提升，但这些特殊的attention结构，目前还无法在实际硬件部署中获得加速效果。因此在CV领域依然是ResNet类型的结构占据主流。

novel point

本文将图片进行切片，直接将patch序列输入到原始的Transformer中（Vision Transformer, ViT），在classification任务上取得了最优的结构，证明了CNN的结构并不是必须的。同时该工作还证明了ViT直接在ImageNet等数据集上进行训练效果不是太好，但经过在超大数据集（JFT-300M等）上进行预训练，再迁移到ImageNet等任务上时，可以获得极高的精度。

metho

最低0.47元/天解锁文章

星月野

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DL-Paper精读：Vision Transformer

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALEhttps://openreview.net/pdf?id=YicbFdNTTybackgroundTransformer已经成为了NLP领域的“the model of choice”, 主流做法（如BERT, GPT等）一般为在一个巨大的文本库上进行预训练，然后再在一个较小的具体任务数据集上进行fine-tune。受益于Transform.
复制链接

扫一扫

专栏目录