独家 | Facebook AI发布DETR一种基于Transformer的对象检测方法！

最新推荐文章于 2023-09-04 21:12:47 发布

数据派THU

最新推荐文章于 2023-09-04 21:12:47 发布

阅读量473

点赞数

文章标签：机器学习人工智能 python 深度学习大数据

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/107526977

版权

Facebook AI推出了DETR，一种基于Transformer的目标检测框架，简化了对象检测的多步骤过程，解决了假阳性问题。DETR在大型对象检测上表现出色，通过Transformer的编码解码结构直接进行集合预测。尽管在小对象检测上仍有提升空间，但DETR为深度学习和计算机视觉领域带来了创新。

摘要由CSDN通过智能技术生成

作者：PRATEEK JOSHI

翻译：陈之炎

校对：王晓颖

本文约1800字，建议阅读8分钟。

每隔一段时间，一些新的机器学习的框架或者库就会改变整个领域的格局。今天，Facebook开源了-DETR框架，即 DEtection TRansformer。

在本文中，我们将快速理解对象检测的概念，然后深入研究DETR，以及它给相关领域带来的改变。

目标检测初探

在计算机视觉领域，对象检测任务是通过模型来区分前景对象和背景，并对图像中对象的位置和类别进行预测。目前的深度学习方法试图将目标检测任务作为分类问题或回归问题来处理，或两者兼而有之。

例如，在RCNN算法中，从输入图像中识别出几个感兴趣的区域，然后这些区域被归类为对象或者背景，最终使用一个回归模型生成已经识别的对象的边界框。

另一方面，YOLO框架（意为“只需要看一次”）以一种不同的方式处理对象检测。它将整个图像作为一个单个的实体，并预测这些边界框的坐标和类概率。

要了解更多关于对象检测的信息，请参阅这些文章：

对象检测算法基础分步介绍：

https://www.analyticsvidhya.com/blog/2018/10/a-step-by-step-introduction-to-the-basic-object-detection-algorithms-part-1/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach

使用大众YOLO框架进行对象检测的实用指南：

https://www.analyticsvidhya.com/blog/2018/12/practical-guide-object-detection-yolo-framewor-python/?utm_source=blog&utm_medium=facebook-detection-transformer-detr-a-transformer-based-object-detection-approach

Facebook AI介绍Detection Transformer（DETR）

正如上一节所述，当前的深度学习算法以多步骤的方式执行对象检测，但是这种方法面临着近重复的问题，即假阳性。为了简化，FacebookAI的研究人员提出了DETR，一种创新且高效的方法来解决对象检测问题。

论文原文链接：

https://arxiv.org/pdf/2005.12872.pdf

开源代码链接：

https://github.com/facebookresearch/detr

Colab笔记本：

https://colab.research.google.com/github/facebookresearch/detr/blob/colab/notebooks/detr_demo.ipynb

来源：https://arxiv.org/pdf/2005.12872.pdf

这个新模型非常简单，无需安装任何库就可以使用它。DETR利用基于Transformers的编解码器结构将目标检测问题转化为直接的集合预测问题，此处集合指的是边界框的集合。Transformers是一种在NLP领域表现突出的新型深度学习模型。

本文的作者在最为流行的对象检测数据集COCO上测评了DETR，并将非常有竞争力的Faster R-CNN模型作为基准进行比对。

结果，DETR取得了不错的性能。更准确地说，DETR在大型对象检测上表现出明显更好的性能，然而，它在小对象检测上的表现却差强人意。相信研究人员很快就会解决这个问题。

DETR的体系结构

整个DETR体系结构实际上非常容易理解。它包含三个主要组成部分：

一个CNN骨干网络；
编码器-解码器transformer；
一个简单的前馈网络。

来源：https://arxiv.org/pdf/2005.12872.pdf

CNN骨干网络生成输入图像的特征映射，然后将CNN骨干网络的输出转换成一维特征映射，作为输入传递给编码器transformer。该编码器的输出是N个固定长度嵌入（向量），其中N是模型假定的图像中的对象数。

Transformer解码器借助自编解码注意机制将这些嵌入解码到坐标系中。

最后，前馈神经网络预测边界框的归一化中心坐标、高度和宽度，线性层使用Softmax函数预测类标签。

最后的想法

对于所有深度学习和计算机视觉爱好者来说，这是一个非常令人兴奋的框架。非常感谢Facebook与社区分享其方法。

是时候准备好将DETR技术用到下一个深度学习项目中去了！

原文标题：

Facebook AI Launches DEtection TRansformer (DETR) – A Transformer based Object Detection Approach!

原文链接：

https://www.analyticsvidhya.com/blog/2020/05/facebook-detection-transformer-detr-a-transformer-based-object-detection-approach/

编辑：黄继彦

校对：林亦霖

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。