CVPR 2021 Conditional Positional Encodings for Vision Transformers

动机
  1. 最近,在分类和检测等视觉识别任务中,transformer被认为是卷积神经网络(CNNs)的一种强有力的替代方法。

    与CNNs中的卷积运算具有有限的感受野不同,transformer中的自我注意机制能够捕捉远距离信息,并根据图像内容动态调整感受野。因此,transformer被认为比CNN更灵活、更强大,因此有望在视觉识别方面取得更大进展。

  2. transformer中的自我注意力操作是排列不变的,它不能利用输入序列中token的顺序。

    为了缓解这一问题,以前的工作添加了绝对位置编码器到输入序列中的每个token,从而实现顺序感知。位置编码既可以是可学习的,也可以用不同频率的正弦函数固定。尽管这些位置编码是有效的和扩散性的,但它们严重地损害了transformer的灵活性,阻碍了其更广泛的应用。以可学习版本为一个例子,编码通常是与输入序列等长的向量,在训练过程中与网络权值联合更新。因此,一旦训练,编码的长度和值就固定不变。在测试过程中,它会导致处理比训练数据中的序列更长的序列的困难。

  3. 对于transformer模型,使用的位置编码面临两个挑战。首先,它阻止了模型处理比最长训练序列更长的序列。其次,由于在每一个块上都添加了一个唯一的位置编码向量,使得模型不是平移不变的。平移不变性在分类任务中起着重要的作用,因为对于图像中的任何目标,都希望网络能给出相同的回应。

    由于除了位置编码之外,视觉transformer的所有其他组件(例如,MHSA和FFN)可以直接应用于较长的序列。第一个挑战可以通过重新移动位置编码来解决,但是,由于输入序列的顺序是一个重要的线索&#x

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值