LV-ViT:All Tokens Matter: Token Labeling for Training Better Vision Transformers

在这里插入图片描述

这篇文章是对ViT训练的一种增强方法LV-ViT。以往的Vision Transformer 分类任务都只是应用class token聚集全局信息,用于最后的分类。作者提出将patch token也用作loss的计算。相当于将一张图像的分类问题,转换成了每个token的识别问题,每个token的分类标签是由机器生成的监督(supervision)。

原文链接:All Tokens Matter: Token Labeling for Training Better Vision Transformers
另一版:Token Labeling: Training a 85.5% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet
源码地址: https://github.com/zihangJiang/TokenLabeling

All Tokens Matter: Token Labeling for Training Better Vision Transformers[NIPS2021]

Abstract

在本文中,提出了一个新的训练目标,即Token Labeling,用于训练高性能Vision Transformer(VIT)。ViTs的标准训练目标是在一个额外的可训练class token上计算分类损失,提出的目标是利用所有的图像patch token密集地计算训练损失

也就是说将图像分类问题重新描述为多个token级别的识别问题,并为每个patch token分配由机器注释器生成的特定于位置的单独监督supervision。

26M的Transformer模型使用Token Labeling,能在在ImageNet上可以达到84.4%的Top-1精度。
通过将模型尺寸稍微扩大到150M,结果可以进一步增加到86.4%,使以前的模型(250M以上)中的最小尺寸模型达到86%。

1 Introduction

最近的vision transformers通常使用的class token来预测输出类,而忽略了其他patch token的作用,这些标记在各自的局部图像patch上编码了丰富的信息。

在本文中,提出了一个新的Vision Transformer训练方式称为LV-ViT,同时利用了patch token 和class token。该方法采用机器注释器生成的K维分数图作为监督,以密集方式监督所有token,其中K是目标数据集的类别数。通过这种方式,每个patch token显式地与指示相应图像patch内存在目标物体的单个位置特定监督相关联,从而在计算开销可以忽略不计的情况下提高vision Transformer的物体识别能力。这是首次证明密集监控有利于图像分类中的vision Transformer的工作。

如图,LV ViT具有56M参数,在ImageNet上产生85.4%的top-1精度,其性能优于所有其他参数不超过100M的基于Transformer的模型。当模型尺寸放大到150M时,结果可以进一步提高到86.4%。

在这里插入图片描述

2 Method

常规的ViT将图像分割为patch,再加入一个class token,经过多轮相似度计算后,将图像信息聚合到class token中,最后只采用图像级标签作为监督,而忽略了嵌入在每个图像块中的丰富信息。其中 X c l s X^{cls} Xcls是最后一个Transformer Black的输出, H ( ⋅ , ⋅ ) H(·,·) H(,)是softmax交叉熵损失, y c l s y^{cls} ycls是类标签。
在这里插入图片描述
本文中提出了一种新的训练目标token标记,该标记利用了patch token和class token之间的互补信息

2.1 Token Labeling

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值