摘要
DETR是一个使用transformer进行目标检测的一篇论文。它的亮点在将transformer应用到了视觉任务,将NLP和CV任务之间打通了。DETR实现非常简单,不需要像faster-rcnn一样设计很复杂的结构,而且可以达到和faster-rcnn差不多的结果。
模型大致结构
模型的结构主要是两部分,首先是CNN的图片特征提取部分,然后是transformer的结构部分,经过transformer之后,就输出了目标检测的结果。模型输出的结果是固定的,也就是说最多检测一张图片中N个目标。
CNN输出的结果是一个 H ∗ W ∗ C H*W*C H∗W∗C的tensor,代表了图片提取出的feature map。将feature map变成 ( H ∗ W ) ∗ C (H*W)*C (H∗W)∗C的二维矩阵放到transformer中。
损失函数
transformer的输出是N个预测,N是一个固定值,这个N要比正常图片中可能出现的目标的数量大一些。数据的标注由两部分组成:一个是 c i c_i ci代表物体所属类别,一个是 b i b_i bi代表目标的矩形框。预测值同样由两个部分组成, p ^ σ