论文阅读《Rethinking and Improving Relative Position Encoding for Vision Transformer》

动机

  • 相对位置编码在自然语言处理任务中被证明是有效的,而在视觉任务中更常见绝对位置编码,那么相对位置编码在视觉任务中是否有用?
  • 如果有用,是哪些因素起到了作用?

贡献

  • 验证了相对位置编码的有效性
  • 验证了相对位置编码中不同因素起到的作用

方法

  • 问题一:以前的相对位置编码都依赖于input embeddings,那么编码是否可以独立于输入
    探究方法:设计了两种相对位置编码的模式,偏置模式(独立输入)和上下文模式(考虑与查询、键或值的交互)
    在这里插入图片描述
    在这里插入图片描述

    • 偏置模式
      在这里插入图片描述

rij为可学习标量,表示位置i和j之间的相对位置权重。

  • 上下文模式,有多种变体
    应用于q:
    在这里插入图片描述

应用于q和k:
在这里插入图片描述

应用于v:
在这里插入图片描述

  • 问题二:相对位置编码方向性的重要性

  • 探究方法:设计了四种相对位置编码的计算方法,两种无向和两种有向

    • 欧式距离法(无向)
      在这里插入图片描述

    • 量化法(无向):欧式距离法会把两个近邻映射到同一个索引中,假设近邻应该分开,采取了量化。做法是把欧氏距离法得到的实数映射到不同的整数。
      在这里插入图片描述

    • 交叉法(有向):分别计算水平方向和垂直方向上的编码,然后再汇总。
      在这里插入图片描述

    • 点乘法(有向)
      在这里插入图片描述

  • 其他创新点

    • 提出分段索引函数与clip函数做对比
      目的:把相对位置编码映射到一个有限集中;
      功能:大大减少长序列的计算成本和参数量;
      方法:基于假设近邻比远邻更重要,通过相对距离来分配注意力。
      在这里插入图片描述

实验

任务:图像分类、目标检测
数据集:ImageNet 、COCO2017
baseline:Deit、DETR
设置:将相对位置编码添加到所有自注意力层中。如果未指定,则仅在关键点上添加相对位置编码。
实验结果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

  • 1) 相对位置编码可在不同磁头之间共享,以节省参数。它能够在上下文模式下实现与非共享模式相当的性能。
  • 2) 在图像分类任务中,相对位置编码可以代替绝对位置编码。然而,绝对位置编码对于目标检测任务是必要的,它需要预测目标的位置。
  • 3)相对位置编码应考虑位置方向性,这对结构化二维图像具有重要意义。
  • 4) 相对位置编码迫使变压器中的浅层更加关注局部面片。
  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
回答: 本文提出了一种名为EfficientFormerV2的高效网络,旨在重新思考Vision Transformers以实现与MobileNet相当的模型大小和速度。作者结合了细粒度联合搜索策略,通过一系列的设计和优化,使EfficientFormerV2在相同参数量和延迟下比MobileNetV2在ImageNet验证集上的性能高出4个百分点。\[1\]该网络的设计考虑了资源受限型硬件的需求,特别关注模型的参数量和延迟,以适应端侧部署的场景。\[2\]如果您对EfficientFormerV2感兴趣,可以通过扫描二维码或添加微信号CVer222来获取论文和代码,并申请加入CVer-Transformer微信交流群。此外,CVer学术交流群也提供了其他垂直方向的讨论,包括目标检测、图像分割、目标跟踪、人脸检测和识别等多个领域。\[3\] #### 引用[.reference_title] - *1* *3* [更快更强!EfficientFormerV2来了!一种新的轻量级视觉Transformer](https://blog.csdn.net/amusi1994/article/details/128379490)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [EfficientFormerV2: Transformer家族中的MobileNet](https://blog.csdn.net/CVHub/article/details/129739986)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值