ViTAR: Vision Transformer with Any Resolution

ViTAR: Vision Transformer with Any Resolution

相关链接:arxiv
关键字:Vision TransformerResolution AdaptabilityAdaptive Token MergerFuzzy Positional EncodingHigh-Resolution Image Processing

摘要

本文解决了视觉Transformer(ViTs)面临的一个重大挑战:在不同图像分辨率下的可扩展性受限。通常,ViTs在处理训练时未见过的分辨率时,性能会下降。我们的工作引入了两个关键创新来解决这个问题。首先,我们提出了一个动态分辨率调整的新颖模块,设计了一个单一的Transformer块,专门用于实现高效的增量令牌整合。其次,我们在视觉Transformer中引入了模糊位置编码,以在多个分辨率下提供一致的位置感知,从而防止对任何单一训练分辨率的过拟合。我们得到的模型ViTAR(Vision Transformer with Any Resolution)展示了令人印象深刻的适应性,在1120x1120分辨率下达到83.3%的top-1准确率,在4032x4032分辨率下达到80.4%的准确率,同时降低了计算成本。ViTAR在下游任务,如实例和语义分割中也表现出强大的性能,并且可以轻松地与自监督学习技术,如Masked AutoEncoder结合。我们的工作为提高ViTs的分辨率可扩展性提供了一种成本效益高的解决方案,为更通用和高效的高分辨率图像处理铺平了道路。

核心方法

image.png

  1. 自适应令牌合并器(ATM):ATM模块接收经过补丁嵌入处理的令牌作为输入。我们预设了Gh × Gw作为最终目标令牌的数量。ATM将令牌划分为大小为Gth × Gtw的网格。在实际使用中,通常设置H Gth为1或2,W Gtw也是如此。ATM通过GridAttention过程逐步合并每个网格内的令牌,最终将所有令牌映射到一个固定形状的网格上。

  2. 模糊位置编码(FPE):FPE引入了一定程度的位置扰动,将精确的位置感知转变为带有随机噪声的模糊感知。这种措施防止模型对特定分辨率的位置过度拟合,从而增强了模型对不同分辨率输入的适应性。同时,FPE可以被视为一种隐式数据增强,使模型能够学习更强大的位置信息并取得更好的性能。

实验说明

实验结果如下表所示,展示了不同模型在不同分辨率下的top-1准确率和计算复杂度(FLOPs):

模型分辨率FLOPs(G)Top1-acc(%)
DeiT-S224579.8
ResFormer-S224582.2
ViTAR-S224580.3

数据来源是ImageNet-1K、COCO和ADE20K等标准数据集。实验中使用了多种数据增强和正则化技术,如RandAugment、Mixup、CutMix和Random Erasing等。此外,还采用了AdamW优化器和余弦衰减学习率调度器进行训练。

结论

在本文中,我们提出了一种新的架构:ViTAR(Vision Transformer with Any Resolution)。ViTAR中的自适应令牌合并器使得模型能够适应性地处理可变分辨率的图像输入,通过逐步合并令牌到固定大小,极大地增强了模型的分辨率泛化能力,并在处理高分辨率输入时降低了计算成本。此外,ViTAR还包含了模糊位置编码,允许模型学习强大的位置信息并处理训练中未遇到的高分辨率输入。我们的ViTAR还与现有的基于MAE的自监督学习框架兼容,表明其在大规模未标记数据集上的应用潜力。在需要高分辨率输入的实例分割和语义分割任务中,ViTAR显著降低了计算成本,几乎不影响模型性能。我们希望这项研究能够激发后续对高分辨率或可变分辨率图像处理的研究方向。

  • 24
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
详细的desccc v3 Lorem ipsum dolor坐在amet,sed morbi hendrerit cras,tellus viverra在,augue amet est。 详细说明v3 Lorem ipsum dolor坐在amet,sed morbi hendrerit cras,tellus viverra in,augue amet est。 Bibendum aliquam natoque consectetuer luctus pulvinar sociosqu,quia augue nunc,dignissim justo orci in sed dui,nullam sit nunc nostra。 产褥期胎盘等。 Fusce id phasellus eros tempor augue。 Metus eu nullam duis tempor massa,马萨德sed volutpat dolor consectetur velit,aliquet sed quis neque,dolor ullamcorper velit elementum。 布兰妮特·乌德·伊迪克·里奥·科莫多·多洛·沃尔多姆·索代莱斯·索达莱斯·索代莱斯·尼科斯,《维纳蒂斯·锡西顿·本比登·奥伊斯莫德》。 Aenean arcu前庭,facilisi tincidunt ad proin,iaculis eget。 Praesent产妇,正常人,双性恋,智商整数,quisque整数。 Quisque pretium tincidunt fermentum ac tempus,nibh egestas ligula semper id。 著名的成名人物。 Nullam quis malesuada amet faucibus amet,diam amet ornare sociosqu pellentesque,sed et imperdiet imperdiet dapibusvestibulum,maecenas consectetuer s varius vitae velit,interdum ipsum。 Vitae整数augue neque quisque,libero volutpat,accumsan quam viverra volutpat ut ullamcorper ullamcorper,便利店中的调味品semper,adiceiscing donc sed eartertort。 在dignissim dolor中,leo lobortis consectetuer wisi molestie hendrerit,sem luctus luctus dictum ut,egetas被保存在eget中。 Sociis ac eu,quis repellendus类的结果,nec mollis,neque porttitor quam eget nec等。 履历表situsélicitudinamet posuere sed,dui morbi mattis pellentesque varius sapien。 Quibusdam pretium purus quis at et,ac accumsan。 Nec sed cupiditate bibendum at atque,Massa magna dolor ipsum amet phasellus eu。 Volutpat morbi commodo arcu mauris arcu,turpis morbi condimentum sodales amet leo,mi sodales,vitar tortor urna。 Luctus quisque nibh,sed facilisis pretium,donc leo arcu neque porttitor和nunc pretium ligula quia。 Convallis porta enim。 Lacus fusce,在前额叶藻的前额叶中,在非累积性的月季中,有叶的月季等。 Fusce proin id altricities Massa。 Malesuada eros non aenean adipiscing nulla,pellentesque et dis adipiscing ante aliquet,imperdiet arcu,nonummy fringilla quis sed。 Curabitur magna imperdiet nisl vivamus,etiam quis wisi ulticies pede,Blandit duis id digni

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liferecords

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值