End-to-End Object Detection with Transformers论文解析

传统方法存在的问题

        目标检测领域,从目标检测开始火到detr(Detection Transformers)都很少有端到端的方法,大部分方法最后至少需要后处理操作(NMS,non-maximum suppression非极大值抑制)。无论是proposal based方法、anchor based方法、non-anchor based方法,最后都会生成很多预测框,如何去除这些冗余的框就是NMS要做的事情。由于使用了NMS所以会出现以下两个问题:

         1.有了NMS,模型调参就会很复杂

        2.即使训练好了一个模型,部署起来也非常困难(NMS不是所有硬件都支持)

Detr的介绍

        在这篇文章中提出了一种新的方法,将目标检测看做是集合预测问题。这个方法简化了检测流程,有效地消除了许多自己设计的组件,比如非极大值抑制程序(NMS)或显式编码我们对任务的先验知识的锚点(anchor)生成。

        新框架的主要组成部分被称为Detection Transformer或DETR,其中包括一种基于集合的全局损失,通过二分图匹配强制进行唯一预测,以及一个Transformer编码器-解码器架构。给定一组固定的学习对象查询,DETR通过推理对象之间的关系和全局图像上下文,直接并行输出最终的预测集。

         有了这种全局建模的能力,detr不会有那么多冗余框,最后出什么结果就是什么结果,detr也不需要NMS做后处理,让模型的训练和部署都简单了很多。

        所以detr是一个简单的,端到端的模型。

Detr的主要贡献

        1、把目标检测做成一个端到端的框架。

        2、提出了新的目标函数,通过二分图匹配的方式,能够强制模型输出一组独一无二的预测。

        3、使用了Transformer encoder-decoder的架构。

Detr训练流程及预测步骤

第一步:用卷积神经网络

end-to-end object detection with transformers》是关于使用transformers进行端到端目标检测的一篇参考文献。目标检测计算机视觉领域的一个重要任务,旨在从图像或视频识别和定位出物体的位置与类别。传统的目标检测方法通常将这一任务分为两个步骤,即生成候选区域和对这些候选区域进行分类。然而,这种两步骤的方法存在一定的缺点,如效率低、需要手动选择参数等。 这篇参考文献提出了一种端到端的目标检测方法,使用transformers模型来直接进行物体检测任务。transformers是一种基于自注意力机制的神经网络模型,在自然语言处理领域已经取得了很大的成功。借鉴transformers的思想,文提出了一种新的目标检测方法,称为DETR(Detection Transformer)。 DETR模型采用了一个编码器-解码器架构,其编码器是一个transformers模型,用于对输入图像进行特征提取。解码器则是一种由全连接层和多层感知机组成的结构,用于预测目标的位置和类别。与传统的两步骤方法不同,DETR模型通过将目标检测转化为一个集合问题,并使用transformers模型进行集合元素之间的关联和特征提取。通过在训练过程引入损失函数,模型可以学习到物体的位置和类别信息。 该文献通过在COCO数据集上进行实验证明了DETR模型的有效性,并与传统的目标检测方法进行了比较。实验结果表明,DETR模型在准确性和效率上都有显著的提升。此外,DETR模型还具有良好的扩展性,可以应用于不同大小和类型的目标检测任务。 综上所述,《end-to-end object detection with transformers这篇参考文献介绍了一种基于transformers的端到端目标检测方法,并通过实验证明了其有效性和优越性。该方法的提出为目标检测领域的研究和应用带来了新的思路和方法。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值