Transformer在目标检测的几篇论文

最新推荐文章于 2024-09-20 23:42:35 发布

Alienge

最新推荐文章于 2024-09-20 23:42:35 发布

阅读量1.8k

点赞数 3

文章标签：机器学习人工智能计算机视觉

本文链接：https://blog.csdn.net/Alienge/article/details/119781027

版权

Transformer在目标检测的几篇论文

blog记录最近看的两篇文章

如果你了解第二篇文章，那么第三篇文章就相对容易。

前置废话

最近看了几篇文章，姑且记录下来。最近Transformer在视觉上的paper不断增多，各种idea层出不穷，如swin transformer等。但一切都有迹可循。本blog记录关于目标检测两篇比较有代表性的paper。

前置知识

了解最原始的Transformer,
优化分配问题(匈牙利法)。

这里简述关于这两点知识。

Transformer

SelfAttetion

对于给定的Feature Map $\in R^{c\times h \times w}$ , 不妨设置得到的 $Q$ , $K$ 和 $V$ 都是相同维度，即 $\in R^{c\times h \times w}$ .将 $Q, K, V$ 分别 $r e s h a p e$ 到 $R^{hw\times c}$ ,那么 $SA = QK^{T}$ ,进一步做归一化，可以得到
$softmax(\frac{QK^{T}}{\sqrt{d_{k}}})$ 最终得到的输出
$softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$
可以看到 $\in R^{hw\times hw}$ , $\in R^{hw \times c}$ ,这就是想要的结果.
Multi-head机制只是把通道数拆成多份，如 $m$ 份，那么上述的shape就变成了 $Q,K,V\in R^{h\times w\times \frac{c}{m}}$ ,最后将m个head进行 $c o n c a t$ ,得到 $Attention\in R^{hw\times c}$ . $c r o s s - a t t e t i o n$ 和这个类似，只不过 $K$ 和 $V$ 的来源不同而已，这里不再过多的赘述。

Position Embedding

由于在self-attention的过程中，只考虑了两两之间的attention,这其实还不够，因为现实生活中位置对于特征也非常重要，原论文采用了两种方式进行position位置的编码。

hard coding(sin,cos函数编码)
position learning

对于hard coding的方式主要参考
$PE(pos,2i)=sin(\frac{pos}{10000^{2i/d_{model}}}) \ \ \ \ \ \ \ \ \ \ \ \ (2)$
$PE(pos,2i+1)=cos(\frac{pos}{10000^{2i/d_{model}}}) \ \ \ \ \ \ \ \ \ \ \ \ (3)$

对于position learning，本质上就把位置看作一个可学习的向量，通过网络不断的去学习，具体以
$PE = Embedding(seqlength, d_{model}) \ \ \ \ \ \ \ \ \ \ \ \ (4)$

匈牙利法

本质上，匈牙利法主要是求解最优化问题中的分配问题的，比如常见分配问题有运输问题。简单以一个记号表示，不妨设图 $G=(V_{1},V_{2},W)$ 来表示分配问题，其中 $V_{1}$ 表示 $A$ 地的 $n$ 点， $V_{2}$ 表示 $B$ 地的 $m$ 点， $W$ 表示 $A$ 地每个点到 $B$ 地每个点的代价，现在需要安排从A地到B地的最小代价匹配（一旦确定了某个配对关系，那么其他点就不能和该点进行配对了）。此时代价矩阵 $W$ 可表示为：
$W=\left[ \begin{matrix} w_{11} & w_{12} & ... & w_{1m}\\ w_{21} & w_{22} & ... & w_{2m} \\ ... & ... & ... & ... \\ w_{n1} & w_{n2} & ...& w_{nm} & \end{matrix} \right]$

不妨设 $x_{ij}$ 在 $A$ 地中的 $i$ 点分配给 $B$ 地的 $j$ 点, 那么该问题变成了一个最优化问题，表示方式如下：
$\min z = \sum_{i=1}^{n}\sum_{j=1}^{j=M}w_{ij}x_{ij}$
$\ \ \ \ \ \ \ \ \ \sum_{i=1}^{n}x_{ij}=1$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{j=1}^{m}x_{ij}=1$
$x_{ij}=0 \ \ \ or \ \ \ \ \ 1$

显然该问题可解。具体的解法有很多，但以匈牙利法为一类方法的代表，这里不过多描述该解法，只描述什么问题可以使用匈牙利法去求解。
如果感兴趣可以参考运筹学的相关书籍。或者参考该blog匈牙利解法

DETR

DETR的网络和Transformer类似，它去掉了Transformer中Decoder部分计算self-Attention的Mask的部分，这是因为在图片中对于像素来说上下文是可知的，并不像自然语言处理处理句子中，进行预测的时候，当前只知道预测词之前的所有单词，对于之后的单词，并不知道，所以Transformer中进行softmax之前要进行一步mask。另外还有一点是position部分，在Transformer中，position embedding仅加在了词向量后，而DETR则是在所有输出的Attention部分都加上了position embedding.这一点可以从给出的网络图中可以看出，
请添加图片描述

注意这里的position encoding都加到每层计算attention中去了。文章中还针对在开始位置加postion encoding还是全部都加position encoding做了消融实验，实验结果是在每次计算attention的时候都加上效果最好。

另外DETR改进了原始Transformer不适用于做目标检测的部分。这部分主要体现在decoding部分，如下图。

上图中左图为DETR的结构，右图为Transformer的原始结构。可以清楚的看到不同点是

DETR将Transformer中Decoder部分的输入outputs(shift right)改成Object queries,这是因为在图像中不需要通过前一个词去预测后一个词（也就是shifted right）.此外这个Object queries也不是什么神奇的东西，只是一个随机的参数（这里可以改进），这里从论文附录给的代码可以看出。
为完成目标检测任务，类比Faster-RCNN等网络，那么输出网络改成两个分支，一个bbox预测,一个类别预测。这里的网络也只是一个前馈神经网络。

那么DETR改进Transformer部分就完成了，但是，这里还有一个问题没有解决，那就是如何让预测与标签相对应，之前的Faster-RCNN等，不管是一阶段还是二阶段的做法是通过计算IOU的值来让预测的样本与GroundTruth进行匹配。这样做当然没问题，但是会增加计算的时间复杂度，因为会有很多框（RPN网络）。这里作者就提出了不使用这种方式，使用匈牙利法进行强制匹配，这样免去了计算IOU以及NMS的计算。
下面介绍如何完成这个匹配：
不妨设 $P r e d i c t i o n$ 为 $P\_bbox_{j},P\_c_{j})$ , $L a b e l$ 为 $L\_bbox_{i},L\_c_{i})$ 为对应的bounding box预测和分类结果。其中 $\cdots n$ , $\cdots m$ .此外对于一副图像来说，那么图像中的目标应该来说不多，因此这里有 $m > n$ .
当前我们不知道哪一个预测框对应的哪一个ground Truth,因此没办法计算loss. 现在类比我们的运输问题,想象一下把 $P r e d i c t i o n$ 看成是 $A$ 地， $L a b e l$ 看成是 $B$ 地，现在我们需要构建 $P r e d i c t i o n$ 到 $L a b e l$ 的代价函数，然后使用匈牙利法去求解完成这个匹配的最小代价，这样就可以知道 $L a b e l$ 中的第 $i$ 个对应的 $P r e d i c t i o n$ 第 $j$ 个。那么如何构建这个代价函数呢？很自然的通过 $b o u n d i n g b o x$ 和 $c l a s s$ 来对应，代价函数为 $W$ ,
$W=\left[ \begin{matrix} w_{11} & w_{12} & ... & w_{1m}\\ w_{21} & w_{22} & ... & w_{2m} \\ ... & ... & ... & ... \\ w_{n1} & w_{n2} & ...& w_{nm} & \end{matrix} \right]$
where $w_{ij}=\|P\_bbox_{j}-L\_bbox_{i} \| + (-1)P\_c_{j}(L\_c_{i})$
当然这里面是示意， $P\_bbox_{j}-L\_bbox_{i} \|$ 好理解， $P\_c_{j}(L\_c_{i})$ 表示输出prediction的类别概率分布取第 $L\_c_{j}$ 类别的数值。
有了这个代价函数，就可以得到Label中的第 $i$ 个，对应 $P r e d i c t i o n$ 中的 $j=\sigma(i)$ 。为了更好的理解，由于 $m > n$ ,因此扩展 $m - n$ 个空类（ $\phi$ ）或者称之为背景给Label，让其与 $P r e d i c t i o n$ 进行对应起来。
那么就有下图的对应关系。

请添加图片描述
至于空类（ $\phi$ ）之前预测bounding box的值不重要，计算的时候，也不需要知道该值，这里可以不用显示指出。这样就知道了Label与Prediction之前的一一对应关系。知道了这个关系就可以计算loss函数了。

这里作者定义了一个Hungarian loss，类似计算代价函数，只不过把计算代价矩阵的classfication直接取值改成了交叉熵的形式，并且扩展到空类（ $\phi$ ）也要计算损失，而bounding box的计算外加了一个iou loss。
$L_{Hungarian}(y,\hat{y})=\sum^{N}_{i=1}[-log{\ \hat{p}_{\hat{\sigma(i)}}}(c_{i})+\mathscr{1}_{c_{i}\neq \phi}L_{box}(b_{i},\hat{b_{{\sigma(i)}}})] \ \ \ (5)$
至此，DETR部分基本完成，当然里面有很多细节，可以参考原论文。

DETR的缺点。

时间复杂度高。在Transformer中计算注意力时，也就是公式1，计算复杂度为 $O(H^{2}W^{2}C)$ ,对图像来说，这个时间复杂度很高。
模型预测小目标能力差。这个在原论文中有实验表明。

在论述Deformable DETR之前，如果你了解Deformable CNN，那么对你了解Deformable DETR有很大的帮助

Deformable CNN

关于这篇文章只介绍与CNN相关的部分，因为Deformable DETR只涉及到这部分的内容。pooling 部分可以参考原论文。
借用原论文的一张图可以很好的解释Deformable CNN. 请添加图片描述
传统的CNN都是以固定的pattern进行点乘累加，用数学语言来表示就是，
以卷积核kernel_size = 3为例，定义 $=\{(-1,-1),(-1,0),\dots , (1,1)\}$ ,对于Feature Map中第 $l$ 层每个位置 $p_{0}$ ,有 $l + 1$ 层的输出为：
$y^{l+1}(p_{0})=\sum_{p_{n}\in R}{w(p_{n})x^{l}(p_{0}+p_{n})}$
Deformable CNN不再以固定的pattern进行点乘累加，而是通过学习来找到应该与哪个位置相关，这样有利于相关特征的选区和扩展可视野。相比于传统的CNN,Deformable加入了可学习的位置参数 $\Delta{p_{n}}$ ,数学表达式为：
$y^{l+1}(p_{0})=\sum_{p_{n}\in R}{w(p_{n})x^{l}(p_{0}+p_{n}+\Delta{p_{n}})} \ \ \ \ \ \ \ (6)$
那么具体的操作用原论文的图表示：请添加图片描述
这部分在代码实现和公式(6)是相反的过程，不是通过操作卷积核来实现，而是通过采样原图的间接方式实现，可以达到相同的效果。具体以下图的方式进行表示
CNN CNN
请添加图片描述
Deformable CNN
Deformable CNN图中Offsets是偏离中心位置有多少的. Offsets是比Feature Map的通道数的两倍,这是因为偏移位置有两个方向，一个x轴一个y轴。当然Offsets里面的值不可能都是整数，可以对其进行双线性插值取值得到新的Feature Map,也就是Sampling.我这里为了方便，将feature map的通道数变为1，而Offsets通道应该是2，我组合放在了一起。可以看到首先进行的在offsets的基础上进行采样，而卷积核的数值和位置不做任何变换，这样可以得到Deformable CNN的形式