DETR解析第一部分：Detection Transformer的介绍

最新推荐文章于 2024-11-25 10:50:59 发布

ronghuaiyang

最新推荐文章于 2024-11-25 10:50:59 发布

阅读量303

点赞数

文章标签： transformer 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247496217&idx=1&sn=8e7a8c93b119d120c354014ee0f3eeea&chksm=c06a7a44f71df352c023764eb9767ea72028fdc40859b0164f8c185f0fd666af5e142b10f9e0&scene=126&sessionid=0

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Aritra Roy Gosthipaty and Ritwik Raha

编译：ronghuaiyang

导读

在本系列中，我们将了解 DETR，这是一种使用 transformer 的端到端可训练的深度学习架构，用于目标检测。

DETR的介绍

在这篇文章中，我们用 DETR 探索了目标检测的革命（整个架构如下图所示的交互图所示），这是一种采用 Transformers 的独特方法，并且使用并行解码的集合预测对目标检测的问题进行了新的想象，为传统方法带来了替代方案。

我们还揭示了Carion等人提出的一种超越旧时代物体检测的新的解决方案。

随着本系列的进展，我们的目标是了解上图中的各个组成部分。但是，现在让我们关注当前的主题：

为什么选择 DETR
它是哪儿来的
牛逼的地方在哪里

为什么是DETR，特别之处在哪？

之前的目标检测方法需要手工设计一些先验以及耗时的流程，现在出现了一种新的架构：DETR，端到端的物体检测器，可以在自己的领域与强大的 CNN 竞争！通过结合 CNN 和 Transformer 这两个的优势，DETR 简化了训练过程，告别了繁重的体力工作。

凭借其独特的超强注意力机制，DETR 可以非常准确地识别物体及其关系。

随着这种架构的出现，各个实验室开始受 DETR 启发进行各种创新，从而实现更好的图像分割和目标检测模型。因此，端到端超级物体检测器 DETR 诞生了。

今天我们将深入探讨它的过去，导致它诞生的因素，以及这个奇迹最初是如何实现的。

什么是目标检测？

目标检测基本上就是通过在目标周围画框并弄清楚每个目标的名称来猜测目标在图像中的位置。

以前的目标检测方法通过创建相关子问题来解决预测图像中目标位置的问题。这些子问题涉及使用图像的众多预定义区域、点或中心来估计目标的属性。

DETR的创新点是什么？

我们希望目标检测非常简单，但时人们过去常常更迂回地处理这个问题。

作者将目标检测视为集合预测问题。集合预测问题是指你尝试根据某些信息猜测一组物品。可以把它想象成试图根据你的朋友已经看过的电影来找出他们可能喜欢哪些电影。

请注意： 将目标检测视为一组预测问题存在一些挑战。最重要的一个是“摆脱重复的预测”。当你完成本系列的其余部分时，请记住这一点。它将帮助你更好地理解作者为何做出某些选择和决定。

他们的论文主要由两个主要组成部分组成：

一种独特的基于集合的全局损失，它利用二分匹配（一种促进集合预测的算法）来鼓励不同的集合预测。
基于Transformer的架构，包括编码器和解码器。

通过将目标检测视为集合预测问题，消除了先前在目标检测任务中需要手动设计的部分来合并先验知识的需要。这种方法简化了流程并简化了任务。

了解本文在计算机视觉领域的贡献非常重要。为了理解这一点，我们首先通过理解过去的目标检测来重新想象这个问题。接下来，我们看看作者提出的两种新的方法，以解决端到端目标检测。最后，我们看看作者提供的简单解决方案。

过去的物体检测（问题陈述）
集合目标检测预测（方法1）
用于目标检测的 Transformer 和并行解码（方法 2）
一个简单的解决方案

过去的目标检测

以前的目标检测方法是根据一些初始猜测进行预测的。

两阶段检测器 使用相关的建议框来预测目标框。

单阶段目标检测器 相对于锚点或可能的目标中心网格进行预测

重新想象的问题陈述： 预测的质量在很大程度上取决于最初的猜测是如何做出的。因此，我们需要一种直接预测检测集的方法，而不是使用人工的方法。

用集合预测来实现目标检测

在图像处理应用中，基本的集合预测任务是多标签分类。但首先，让我们快速回顾一下多标签和多类的含义。

多分类：一张图像属于几个可能的类别其中一类。

多标签：一张图像同时分配几个不同的标签。

多标签分类的基线方法称为one-vs-rest。在这里，我们为每个标签训练一个二元分类模型，然后尝试预测图像中存在哪些标签，哪些不存在。当然，只有当标签互斥时，这种技术才有效。

在目标检测流程中，几乎相同的框非常常见。这使得上述的 one-vs-rest 方法失败。相反，作者使用直接集合预测来实现这种情况下的集合预测。

注意：在直接集合预测中，我们需要一种方法来考虑所有预测元素之间的关系以避免重复。

这就是作者使用匈牙利算法的地方，该方法帮助他们巧妙地将GT（实际数据）与他们的预测相匹配。

Transformers和目标检测的并行解码

注意力机制聚合来自整个输入序列的信息，更适合长序列表示。

让我们暂停一下并思考一下。如果我们输入图像，并且目标检测模型并行预测目标（边界框），会出现什么问题？

虽然模型并行输出所有目标，但与自回归方法不同，每个预测不具有所有其他预测的上下文。这可能会产生两个问题：

并行模型输出重复项。
并行模型可以每次以不同的顺序输出目标。

一个简单的解决方法

DETR 通过结合二分匹配损失和Transformer来解决这些问题。匹配损失函数有助于将每个预测与唯一的GT目标配对，因此不必担心重复。

此外，二分匹配损失不关心预测目标的顺序，这意味着我们不需要担心预测的顺序。

总结

让我们花点时间回顾一下到目前为止我们在本教程中学到的内容：

我们在 DETR 出现之前探讨了物体检测的挑战和痛点。
我们简要介绍了DETR的创新特性和主要组成部分，包括Set Prediction Loss和基于Transformer的架构。
我们重新想象了问题陈述，以更好地符合 DETR 的方法。
我们熟悉 DETR 的两个关键组成部分以及它们如何解决问题陈述。

—END—

英文原文：https://pyimagesearch.com/2023/05/22/detr-breakdown-part-1-introduction-to-detection-transformers/

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。