【阅读笔记】End-to-End Object Detection with Transformers

最新推荐文章于 2025-05-24 14:25:39 发布

拔牙的萌萌鼠

最新推荐文章于 2025-05-24 14:25:39 发布

阅读量191

点赞数

分类专栏：机器学习与深度学习文章标签：深度学习机器学习概率论

本文链接：https://blog.csdn.net/Harry_Jack/article/details/120352262

版权

机器学习与深度学习专栏收录该内容

22 篇文章

订阅专栏

【阅读笔记】End-to-End Object Detection with Transformers

1. 引言

2. 相关工作

2.1 Set Prediction

2.2 Transformers and Parallel Decoding

2.3 Object detection

Set-based loss.
Recurrent detectors.

3. DETR模型

3.1 对象检测集预测损失

DETR推断出一组固定大小的N个预测，在一次通过解码器中，N被设置为明显大于图像中典型的对象数量。
训练时，需要对预测对象和地面真值之间评分，评分原则为两者间的二部匹配，优化特定对象的(bounding box)损失。
对象目标真值集由 $\ y$ 表示， $\ \hat{y}=\{ \hat{y_i} \}_{i=1}^{N}$ 表示N个预测的集合。
假设N大于图像中的对象数量。
我们也认为尺寸为N的y是一组大小为由∅（没有对象）填充的。
找两个集合的二部匹配，需要搜索最小花费的N个预测元素的排列。

$\hat{\sigma}=\mathop {\arg \min}_{\sigma \in \Xi_N}\sum_i^NL_{match}(y_i,\hat{y}_{\sigma(i)})$

$\ L_{match}(y_i,\hat{y}_{\sigma(i)})$ 是真值 $y_i$ 和带有索引下标 $\ \sigma(i)$ 的预测 $\ \hat{y}_{\sigma(i)}$ 之间的成对匹配代价。

$L_{match}(y_i,\hat{y}_{\sigma(i)})=-\textup{I}_{c_i \neq \varnothing} \hat{p}_{\sigma(i)}(c_i)+\textup{I}_{c_i \neq \varnothing}L_{\textup{box}}(b_i,\hat{b}_{\sigma(i)})$

需要在没有重复的情况下找到一对一的匹配的直接集预测。
计算损失函数，即所有上述所有匹配对的Hungarian损失，类别预测的负对数似然和稍后定义的盒子损失的线性组合。

$L_{Hungarian}(y,\hat{y})=\sum_{i=1}^N[-\log\hat{p}_{\hat{\sigma}(i)}(c_i)+\textup{I}_{\{c_i \neq \varnothing \}}L_{box}(b_i,\hat{b}_{\hat{\sigma}}(i)]$

$\ \hat{\sigma}$ 是在公式1中计算出来的最优分配。
在实际操作中：
- 将ci=∅时的对数概率项的权重降低了一个因子10，用于解释类别失衡。（相当于下采样）
- 对象和 $\ \varnothing$ 之间的匹配代价，并不依赖于预测，因而在这种情况下，代价为常数。
- 匹配代价使用的是： $\ \hat{p}_{\hat{\sigma}(i)}(c_i)$ ，而不是对数概率。
Bounding box loss
- 使用了使用了L1损失和广义IoU损失的线性组合。
- 其中 $\ \lambda_{iou},\lambda_{L1} \in \textup R$ 是超参数，两项损失由bacth里面的对象数量进行归一化。

$L_{box}(b_i,\hat{b}_{\sigma(i)})=\lambda_{iou}L_{iou}(b_i,\hat{b}_{\sigma(i)})+\lambda_{L1}||b_i-\hat{b}_{\sigma(i)}||_1$

3.2 DETR架构

BackBone

1）初始图像输入： $\ X_{img} \in R^{3 \times H_0 \times W_0}$ ，具有三个色彩通道。

2）CNN输出较低分辨率的典型激活map： $\ f \in R^{C \times H \times W}$ ，其中 $\ C=2048$ . $\ H,W=\frac{H_0}{32},\frac{W_0}{32} $.
Transformer encoder

1） $\ 1 \times 1$ 卷积核，将激活map: $\ f$ 从 $\ C$ 维降维到更小的 $\ d$ 维。 $\ z_0 \in R^{d \times H \times W}$

2）encoder的输入要求是一个序列，因而将空间维折叠成一维，进而变为 $\ d \times HW$ 的特征map。

3）每个encoder层具有标准架构，此架构由multi-head self-attention 模块和feed forward network（FFN）组成。

4）每个attention层的输入都加入了fixed positional encodings（固定位置编码）。
Transformer decoder

1）decoder遵循标准transformer架构，大小为d的N个embeddings，使用了multi-headed self- and encoder-decoder attention 机制。

2）模型在每个解码器层上并行地解码N个对象。

3）输入embeddings是学习到的positional encodings（位置编码），我们称之为object queries（对象查询），将这些embeddings加入到每一个attention层里。

4）N个对象查询将被解码器转换为一个输出embedding。

5）输出embedding进入前馈网络，独立解码成方框位置坐标及类别标签，最终形成N个预测。
Prediction feed-forward networks：FFNs

1）最后的预测由3层感知机进行，感知机具有ReLU激活函数和维数为d的隐藏层，以及线性投影层。

2）FFN预测输入图像方框的归一化中心坐标，高度，宽度，线性层使用softmax函数预测类别标签。

3） $\ \varnothing$ 用于表示在一次slot里面没有检测到对象，在标准目标检测方法中，这个类别同背景起了相似的作用。
Auxiliary decoding losses

1）训练时，使用了辅助损失。

2）在每一个decoder层后添加了prediction FFNs和Hungarian损失

3）使用额外共享层规范，用于从不同的decoder层将输入归一化进入预测FFN。