End-to-End Object Detection with Transformers 论文解读笔记

该文介绍了一种基于Transformer的简单对象检测方法。首先,CNN用于生成图像特征编码,然后Transformer处理这些特征以输出识别框和对象类型。二分匹配损失解决重复检测问题,固定最大输出量并使用匈牙利算法进行最佳匹配。Transformer利用注意力机制聚合信息,提供精确的包围盒预测,尤其在处理遮挡情况时表现优越。
摘要由CSDN通过智能技术生成

(由于是视频解读的学习,所以草稿很多)

视频来源https://www.youtube.com/watch?v=T35ba_VXkMY

简介:对象检测指的是检测图像中对象的位置和类型。而本文提出了一种简单的Transformer框架来解决对象检测的问题。

首先,图像通过CNN产生一系列的图像特征编码。通过CNN,图像的尺寸被压缩,但是特征通道数被增加。之后,图像特征被输入到transformer中,并输出一系列识别框的包围盒和框内对象的类型(包含空类型)组成的对。

 

对象的结构如下草图所示:首先是存在概率c,即该识别框存在的概率;当概率为0时,这个输出被视为空,即无效识别框。其次则是包围框的位置和大小b。

二分匹配

输出框的位置,大小都是问题,本文通过一个bipartitl matching loss来解决这个问题,即二分匹配损失。这可以有效

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值