Transformer论文笔记1----利用Encoder的一种图片线性切分方法用于图像分类任务

最新推荐文章于 2024-07-31 17:31:47 发布

JaJaJaJaaaa

最新推荐文章于 2024-07-31 17:31:47 发布

阅读量1k

点赞数 2

分类专栏： Transformer 文章标签：深度学习分类算法信息压缩

本文链接：https://blog.csdn.net/qq_40616042/article/details/116566195

版权

该博客介绍了将Transformer应用于图像识别，通过将图片切分为碎片并进行线性嵌入，然后输入到Transformer中进行处理。尽管Transformer在小数据集上性能可能低于ResNet，但大规模训练后，Vision Transformer (ViT)的表现能够媲美或超过传统模型。文章讨论了ViT的结构，包括patch embedding、class token和position embedding，以及在不同数据集上的实验结果，显示了Transformer在图像领域的潜力。

摘要由CSDN通过智能技术生成

AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
https://github.com/google-research/vision_transformer

作为一种self-attention架构，transformer的主要方法是在一个较大文本语料库进行预训练，然后在一个小的特定任务数据集上进行微调。但是实验表明，在中等尺寸数据集训练后，分类正确率相比于ResNet上往往降低几个百分点，这是由于transformer缺乏CNN的固有的inductive bias 如 translation equivariance and locality，因而在数据不充分情况时不能很好泛化。而在数据尺寸足够的情况下训练transfprmer，是能够应对这种inductive bias，实现对流行模型的性能逼近甚至超越。

本文采用将transformer直接应用在图像上，进行很少的微调，将图像拆分成碎片，然后将图片碎片的the sequence of linear embedding作为Transformer的输入。图片碎片可以看做NLP中的tokens也就是words，以有监督模式训练网络。

实验结果表明，大规模的训练能够应对inductive bias，并且Vision Transformer ViT从较大规模网络迁移至数据点较少的任务中时，表现良好，能够接近或者超过原有性能。

背景知识：
Transformer由Vaswani于2017年提出用于机器翻译。
图像领域的self-attention要求每一个像素关注其他像素，这导致像素数量的二次开销，因而无法扩展至实际的输入大小？？？？？
相关工作&