传统方法存在的问题
目标检测领域,从目标检测开始火到detr(Detection Transformers)都很少有端到端的方法,大部分方法最后至少需要后处理操作(NMS,non-maximum suppression非极大值抑制)。无论是proposal based方法、anchor based方法、non-anchor based方法,最后都会生成很多预测框,如何去除这些冗余的框就是NMS要做的事情。由于使用了NMS所以会出现以下两个问题:
1.有了NMS,模型调参就会很复杂
2.即使训练好了一个模型,部署起来也非常困难(NMS不是所有硬件都支持)
Detr的介绍
在这篇文章中提出了一种新的方法,将目标检测看做是集合预测问题。这个方法简化了检测流程,有效地消除了许多自己设计的组件,比如非极大值抑制程序(NMS)或显式编码我们对任务的先验知识的锚点(anchor)生成。
新框架的主要组成部分被称为Detection Transformer或DETR,其中包括一种基于集合的全局损失,通过二分图匹配强制进行唯一预测,以及一个Transformer编码器-解码器架构。给定一组固定的学习对象查询,DETR通过推理对象之间的关系和全局图像上下文,直接并行输出最终的预测集。
有了这种全局建模的能力,detr不会有那么多冗余框,最后出什么结果就是什么结果,detr也不需要NMS做后处理,让模型的训练和部署都简单了很多。
所以detr是一个简单的,端到端的模型。
Detr的主要贡献
1、把目标检测做成一个端到端的框架。
2、提出了新的目标函数,通过二分图匹配的方式,能够强制模型输出一组独一无二的预测。
3、使用了Transformer encoder-decoder的架构。
Detr训练流程及预测步骤
第一步:用卷积神经网络