（自用学习笔记）detr

最新推荐文章于 2024-09-29 20:06:12 发布

longa__

最新推荐文章于 2024-09-29 20:06:12 发布

阅读量446

点赞数 21

文章标签：学习笔记

本文链接：https://blog.csdn.net/longa__/article/details/141404601

版权

概述

detr是一个端到端的目标检测的方法，该模型使用 Transformer 替代了复杂的目标检测传统套路，它既不需要proposal也不需要anchor，无需nms来去除冗余的框，使模型的训练和部署都变得简单了。

detr 将目标检测任务看作集合预测问题，对于一张图片，固定预测一定数量的物体（原作是100个），模型根据这些物体对象与图片中全局上下文的关系直接并行输出预测集，也就是 Transformer 一次性解码出图片中所有物体的预测结果，这种并行特性使得 DETR 非常高效。

模型

一次大概的前向过程：输入图片通过卷积神经网络提取特征然后拉直，送入transformer encode中学习全局的特征（使用transformer encode的好处就是模型对图片有了一个全局的建模，对于一个物体就只应该出一个框而不是100个框全出在一个物体上了），（图中没有画出object query）通过query和特征在decode中做自注意力操作，然后得到最终的输出。

基于集合的目标函数（贡献）

在得到100个预测框之后我们该怎么去计算loss呢，这里给到的一个解决方法是二分图匹配，论文中使用的是匈牙利算法，大概意思就是有很多工人和工作，该怎么分配这些工人可以使得花销最少。那这里工人可以看成是预测框，工作是真实框，那cost matrix中的值就是对应的loss，一个是分类的loss，还有一个是出框的loss，这样的好处就是强制要得到一个一对一的关系，这样就可以免去nms的后处理操作。在知道了哪些框和真实框是对应的之后就可以计算真正的loss了。

右边那个出框的loss使用了l1loss和generalized iou loss的合体来计算的，因为l1loss跟框的大小有关，而detr对大物体很友好，而generalized iou loss的大小与框无关。

详细模型

这幅图是上面那副图的详细版本，这里画出了object query，在decode里面一个输入是encode出来的全局特征，还有一个是object query，主要的用处就是每一个query相互通信，大概知道每一个query出框的位置，这样就不会重复了，还有一个细节就是可以在每一个decode后面加上loss，这样可以更快的收敛，因为进出decode的维度不变，每一个decode出来的值都可以拿去做预测（原作中是6个decode堆叠的）。