(由于是视频解读的学习,所以草稿很多)
视频来源:https://www.youtube.com/watch?v=T35ba_VXkMY
简介:对象检测指的是检测图像中对象的位置和类型。而本文提出了一种简单的Transformer框架来解决对象检测的问题。
首先,图像通过CNN产生一系列的图像特征编码。通过CNN,图像的尺寸被压缩,但是特征通道数被增加。之后,图像特征被输入到transformer中,并输出一系列识别框的包围盒和框内对象的类型(包含空类型)组成的对。
对象的结构如下草图所示:首先是存在概率c,即该识别框存在的概率;当概率为0时,这个输出被视为空,即无效识别框。其次则是包围框的位置和大小b。
二分匹配
输出框的位置,大小都是问题,本文通过一个bipartitl matching loss来解决这个问题,即二分匹配损失。这可以有效