论文阅读《Rethinking and Improving Relative Position Encoding for Vision Transformer》

最新推荐文章于 2022-09-05 16:57:12 发布

高德文

最新推荐文章于 2022-09-05 16:57:12 发布

阅读量1.8k

点赞数 4

分类专栏：论文阅读

本文链接：https://blog.csdn.net/lzh666hhh/article/details/119801718

版权

3 篇文章 0 订阅

订阅专栏

动机

问题一：以前的相对位置编码都依赖于input embeddings，那么编码是否可以独立于输入
探究方法：设计了两种相对位置编码的模式，偏置模式（独立输入）和上下文模式（考虑与查询、键或值的交互）
- 偏置模式

rij为可学习标量，表示位置i和j之间的相对位置权重。

应用于q和k：
在这里插入图片描述

应用于v：
在这里插入图片描述

问题二：相对位置编码方向性的重要性
探究方法：设计了四种相对位置编码的计算方法，两种无向和两种有向
- 欧式距离法（无向）
- 量化法（无向）：欧式距离法会把两个近邻映射到同一个索引中，假设近邻应该分开，采取了量化。做法是把欧氏距离法得到的实数映射到不同的整数。
- 交叉法（有向）：分别计算水平方向和垂直方向上的编码，然后再汇总。
- 点乘法（有向）
其他创新点
- 提出分段索引函数与clip函数做对比
  目的：把相对位置编码映射到一个有限集中；
  功能：大大减少长序列的计算成本和参数量；
  方法：基于假设近邻比远邻更重要，通过相对距离来分配注意力。

任务：图像分类、目标检测
数据集：ImageNet 、COCO2017
baseline：Deit、DETR
设置：将相对位置编码添加到所有自注意力层中。如果未指定，则仅在关键点上添加相对位置编码。
实验结果：
在这里插入图片描述

关注

专栏目录