DETR基本介绍
DETR的一个创新是端到端的目标检测,它能够将目标检测看做成集合预测问题,而不需要像之前的目标检测算法需要anchor或者nms等,总之就是一个将CNN和transformer结合的一个新颖的目标检测框架,改变预测头还可以进行分割等任务
算法框架
DETR的整体架构如下所示,要检测的图片首先通过CNN提取特征,根据原文这里是提取的ResNet最后一层特征,然后将特征通过Transformer的Encoder与Decoder,这里的encoder与decoder有点类似attention is all you need论文中的编解码器,但是有区别的是这里的decoder处加了100个object queries,这也是本文最关键的部分吧。随后这100 query来搜索图中的目标并进行分类(分别有一个bbox head和cls head),最后通过匈牙利算法进行匹配GT的bbox和相应的类别计算loss
更加具体的框架图如下所示