Deformable DETR——非全局self-attention(顺便补充transformer细节)

最新推荐文章于 2024-08-09 08:56:45 发布

Rainylt

最新推荐文章于 2024-08-09 08:56:45 发布

阅读量962

点赞数 1

分类专栏： Transformer 文章标签： transformer 深度学习神经网络

本文链接：https://blog.csdn.net/lt1103725556/article/details/120267113

版权

Transformer 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

该博客探讨了一种优化Transformer中注意力矩阵的方法，避免了Q*K运算，将复杂度从O(N^2C)降低到O(NKC)。每个查询对应k个值的选择由查询通过全连接层得到的offset矩阵决定，减少了计算量并提高了效率。此外，还详细阐述了注意力矩阵、值、键和查询之间的对应关系。

摘要由CSDN通过智能技术生成

特色：

1.attention矩阵由query直接过全连接层得到，而不进行Q*K
2.attention矩阵乘value时，并不使用所有value，而是每个query(对应attention矩阵的每一行)对应k个value，因此，O(N^2C)变成了O(NKC)，减少了计算量
3.如何确定每个query对应哪些value?——由query过全连接层得到offset矩阵，通过offset得到每个query对应的value的位置
注意：
每个query对应k个value，即相当于要算出Nq组offset，每组有k套offset

说明

主要说说attention矩阵和value,key,query的对应关系
重要： 求self-attentio里面的乘法都是矩阵乘法，不要求shape相等

transformer维度说明

（1）QxK
假设Q有Nq个，K有Nk个，由于两个矩阵要做矩阵乘法，同时乘时K会转置，因此要求两者的每个单位长度相同
因此，假设Q：(Nq，d_embedding)
K也必须为(Nk，d_embedding)
相乘后attention矩阵：(Nq，Nk)
(2)attention x Value
这里便是直接相乘了，没做转置，因此要求Value的第一个维度为Nk，但第二个维度却不限制
Q：(Nq，d_embedding)
K：(Nk，d_embedding)
attention：(Nq，Nk)
V：(Nk，d_v)
result：(Nq，d_v)
在这里插入图片描述