Do We Really Need Explicit Position Encodings for Vision Transformers?

本文提出了CPVT,一种条件位置编码视觉Transformer,能够处理任意长度输入序列,通过Position Encoding Generator(PEG)无缝集成到现有框架。CPVT在ImageNet分类任务上表现出优越性能,挑战了传统Transformer依赖预定义位置编码的做法。
摘要由CSDN通过智能技术生成

本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络

Do We Really Need Explicit Position Encodings for Vision Transformers?

  • 代码:https://github.com/Meituan-AutoML/CPVT
  • 论文下载链接:https://arxiv.org/abs/2102.10882
  • 作者单位:美团, 阿德莱德大学

几乎所有的视觉Transformers(例如ViT或DeiT)都依赖于预定义的positional encodings来合并每个输入token的顺序。这些编码通常被实现为不同频率的可学习的固定维度矢量或正弦函数,无法适应可变长度的输入序列。这不可避免地限制了Transformer在视觉领域的广泛应用,在视觉领域中,许多任务需要即时更改输入大小。

在这里插入图片描述
在本文中,我们提出采用条件position encoding方案,该方案以输入token的局部邻域为条件。它被轻松实现为我们所谓的Position Encoding Generator(PEG),可以将其无缝集成到transformer框架中。我们使用PEG的新模型称为Conditional Position encoding Visual Transformer (CPVT),可以自然地处理任意长度的输入序列。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值