Transformer论文笔记1----利用Encoder的一种图片线性切分方法用于图像分类任务

该博客介绍了将Transformer应用于图像识别,通过将图片切分为碎片并进行线性嵌入,然后输入到Transformer中进行处理。尽管Transformer在小数据集上性能可能低于ResNet,但大规模训练后,Vision Transformer (ViT)的表现能够媲美或超过传统模型。文章讨论了ViT的结构,包括patch embedding、class token和position embedding,以及在不同数据集上的实验结果,显示了Transformer在图像领域的潜力。
摘要由CSDN通过智能技术生成

AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
https://github.com/google-research/vision_transformer

作为一种self-attention架构,transformer的主要方法是在一个较大文本语料库进行预训练,然后在一个小的特定任务数据集上进行微调。但是实验表明,在中等尺寸数据集训练后,分类正确率相比于ResNet上往往降低几个百分点,这是由于transformer缺乏CNN的固有的inductive bias 如 translation equivariance and locality,因而在数据不充分情况时不能很好泛化。而在数据尺寸足够的情况下训练transfprmer,是能够应对这种inductive bias,实现对流行模型的性能逼近甚至超越。

本文采用将transformer直接应用在图像上,进行很少的微调,将图像拆分成碎片,然后将图片碎片的the sequence of linear embedding作为Transformer的输入。图片碎片可以看做NLP中的tokens也就是words,以有监督模式训练网络。

实验结果表明,大规模的训练能够应对inductive bias,并且Vision Transformer ViT从较大规模网络迁移至数据点较少的任务中时,表现良好,能够接近或者超过原有性能。

背景知识:
Transformer由Vaswani于2017年提出用于机器翻译。
图像领域的self-attention要求每一个像素关注其他像素,这导致像素数量的二次开销,因而无法扩展至实际的输入大小?????
相关工作&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值