End-to-End Object Detection with Transformers 论文解读笔记

最新推荐文章于 2025-04-03 18:04:11 发布

寒雪zhi冬

最新推荐文章于 2025-04-03 18:04:11 发布

阅读量249

点赞数

文章标签：目标检测笔记人工智能

本文链接：https://blog.csdn.net/qq_50199113/article/details/131500178

版权

（由于是视频解读的学习，所以草稿很多）

视频来源：https://www.youtube.com/watch?v=T35ba_VXkMY

简介：对象检测指的是检测图像中对象的位置和类型。而本文提出了一种简单的Transformer框架来解决对象检测的问题。

首先，图像通过CNN产生一系列的图像特征编码。通过CNN，图像的尺寸被压缩，但是特征通道数被增加。之后，图像特征被输入到transformer中，并输出一系列识别框的包围盒和框内对象的类型（包含空类型）组成的对。

对象的结构如下草图所示：首先是存在概率c，即该识别框存在的概率；当概率为0时，这个输出被视为空，即无效识别框。其次则是包围框的位置和大小b。

二分匹配

输出框的位置，大小都是问题，本文通过一个bipartitl matching loss来解决这个问题，即二分匹配损失。这可以有效

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寒雪zhi冬

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

HOTR: End-to-End Human-Object Interaction Detection with Transformers论文阅读笔记

weixin_59340037的博客

03-18

1382

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、本文的内容二、研究方法1.detection as set prediction2.HOTR 结构训练HOTR欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UM.

DETR:End-to-End Object Detection with Transformers阅读笔记

m0_53292725的博客

08-21

1241

我们提出了一种新的方法，将对象检测视为一个直接集预测问题。我们的方法简化了检测流程，有效地消除了许多手工设计组件的需要，如非最大抑制程序或锚定生成，这些组件显式编码了我们关于任务的先验知识。新框架被称为检测Transformer(DEtection TRansformer，简称DETR)，其主要组成部分是1.基于集合的全局损耗（提出了一个新的目标函数），通过二分图匹配进行唯一的预测，2.以及Transformer编码器-解码器架构。给定一个固定的小集合的。

1 条评论您还未登录，请先登录后发表或查看评论

DETR: End-to-End Object Detection with Transformers快速介绍

weixin_41620490的博客

04-27

793

文章直接使用了transformer结构来做目标检测，流程如下图像（[B, 3, 800, 1066]）经过CNN(可以为resnet-50）卷积，得到特征图([B, 256, 25, 34])图像位置编码，可以是learned positional encoding，也可以是基于sin/cos函数的【B, 256, 25,34】特征图+位置编码建立nn.transformer(d_model), 这里的d_model为25*34。

Transformer模型详解（图解史上最完整版）

Trisyp的博客

02-24

3560

Transformer模型详解

【详细解读DETR，基于transformer的目标检测网络】DETR： End-to-End Object Detection with Transformers

热门推荐

m0_48086806的博客

08-08

5万+

【详细解读DETR，基于transformer的目标检测网络】DETR： End-to-End Object Detection with Transformers

【论文阅读笔记】End-to-End Object Detection with Transformers

时光机 °的博客

10-11

1445

现有大多数检测算法，都依赖于一些初始猜测。不管是基于proposal的二阶目标检测算法，还是anchor-based、anchor-free的一阶目标检测算法，都是没有直接去预测集合预测的，而是设计了一个替代的任务（回归和类别概率）来解决目标检测问题。现代目标检测器的检测性能很受后处理步骤的影响，比如（1）密集预测边界框的消除；（2）anchor集合的额设计；（3）将目标分配给anchor的启发性方法；

论文阅读笔记：End-to-End Object Detection with Transformers

HollowKnightz的博客

01-20

2815

论文阅读笔记：End-to-End Object Detection with Transformers

End-to-End Object Detection with Transformers论文笔记

m0_46599997的博客

10-15

497

原文链接：https://arxiv.org/pdf/2005.12872v3.pdf 2020年发表在ECCV上摘要将目标检测看作直接集合预测问题。优点：简化了解决方案，有效的消除了许多手工设计组件的需要，如非极大值抑制步骤或锚框生成。明确编码关于任务的先验知识。新框架的主要组成部分被称为DEtection TRansformer(DETR)，是一个基于集的全局损失，通过二部匹配和transformer编码器-解码器结构，强制进行唯一预测。给出一个固定的小的学习过的目标查询集，DETR推理.

【DETR 论文笔记】 End-to-End Object Detection with Transformers

LarsGyonX的博客

10-19

1078

Two ingredients are essential for direct set predictions in detection: (1) a set prediction loss that forces unique matching between predicted and ground truth boxes; (2) an architecture that predicts (in a single pass) a set of objects and models their

End-to-End Object Detection with Transformers的部分解读

maum61的专栏

06-24

517

Transformer+Detection：引入视觉领域的首创DETR 也没有精力看原文了，直接看了博客： https://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA==&mid=2247531914&idx=1&sn=3b8d0b4d3821c64e9051a4d645467995&chksm=ec1c9073db6b1965d69cdd29d40d51b0148121135e0e73030d099f23deb2ff58fa45585

[DETR] End-to-End Object Detection with Transformers (ECCV. 2020 oral）代码笔记

Ah丶Weii

12-08

1591

End-to-End Object Detection with Transformers 文章目录End-to-End Object Detection with Transformers网络结构detr/models/detr.pydetr/models/backbone.py 论文:https://arxiv.org/pdf/2005.12872.pdf 代码:https://github.com/facebookresearch/detr 网络结构 detr/models/detr.py 代码

DETR： End-to-End Object Detection with Transformers

03-21

DETR (Detection Transformer) 是一种基于变压器架构的目标检测方法，它通过将目标检测视为集合预测问题来简化传统的两阶段管道[^3]。该模型的核心思想在于使用编码器-解码器结构，其中自注意力机制能够显式建模序列...

选择排序笔记

ChenShan3的博客

04-03

153

基础版就是每次在未排序的数中选一个最小的放到左边已排序的末尾，而优化版的快速排序就是每次不仅把最小的放到左边，也把最大的放到右边，减少遍历次数，这里的实现要结合双指针。原始数组 [5₁, 2, 5₂, 1]（5₁ 和 5₂ 是值相同的两个元素）。第一轮选择最小元素 1，与 5₁ 交换 → [1, 2, 5₂, 5₁]。每次从未排序部分选择最小（或最大）元素，放到已排序部分的末尾。交换操作可能跨越多个位置，破坏相等元素的原始顺序。此时 5₂ 跑到了 5₁ 前面，相对顺序改变。最好/最坏/平均情况均为。

老罗笔记人工智能文字处理软件 Rogabet Notepad 2025-402 1.812

rogabet的博客

04-03

532

老罗笔记人工智能文字处理软件

【CMake】《CMake构建实战：项目开发卷》笔记-Chapter2-CMake简介

江湖人称菠萝包

04-01

574

CMake官网给出了如下的定义：CMake是一个跨平台开源工具家族，用于构建、测试和打包软件。CMake通过简单的平台无关且编译器无关的配置文件来控制软件的编译流程，并能够生成原生的Makefile和工作空间，以便用于用户所选择的编译环境。为了满足开源项目对强大的跨平台构建工具的需求，Kitware公司创建了CMake工具套装。定义中，“跨平台”和“开源”这两个特性不必多说，要注意的是“工具家族”这个说法。

java反射笔记、内省、动态代理

enthan809882的博客

04-01

180

java反射笔记、内省、动态代理

CoAP 发布/订阅（Pub/Sub）机制草案笔记 - draft-ietf-core-coap-pubsub-09

liudong200618的博客

04-02

675

1. 背景与目标CoAP 协议: 面向资源受限设备（如低功耗无线传感器网络）的机器对机器通信协议，采用请求/响应模型。设备可能同时作为客户端和服务器。某些设备由于电池供电或能量收集机制，大部分时间处于休眠状态，网络连接性有限。某些中间设备（如 NAT、防火墙）也会限制设备的可达性，通常只允许设备主动发起的连接。发布/订阅（Pub/Sub）通信模型适用于需要多对多通信的场景，通信通过主题（Topic）而非端点进行。发布者无需了解消息的最终接收者。

【HCIA】静态综合实验练习笔记