1.feature map
理解CNN中的特征图 feature map_Pengsen Ma的博客-CSDN博客_feature maps
在每个卷积层,数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起,其中每一个称为一个feature map。在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿蓝)。层与层之间会有若干个卷积核(kernel),上一层和每个feature map跟每个卷积核做卷积,都会产生下一层的一个feature map。
2.anchor和proposal
.卷积神经网络——Faster Rcnn中的anchor和Proposal_helpburn的博客-CSDN博客_anchor proposal3
可以理解为anchor为预测的许多框,其中包括冗余框,而proposal是经过极大抑制处理后留下来的框。
3.groud truth
groudtruth相当于正确打标记的数据
4.learn query
参考:原文链接:https://blog.csdn.net/weixin_45782047/article/details/122990292
在DETR中,object queries的作用类似于基于CNN的目标检测算法中的anchor boxes。它共有N个(N是一个事先设定好的超参,它的值远大于一个图片中的目标数)。N个不同的object queries输入的解码器中便会得到N个decoder output embedding,它们经过最后的MLP得到N个预测结果。不同的N个Object queries保证了N个不同的预测结果,Object queries是一个可以训练的嵌入向量,它通过和ground truth的匈牙利匹配(附件A)来向不同的ground truth进行优化。
上图中,每个图都是一个object query在COCO 2017 val set预测出来的框的结果。图中的每个点都是一个框的中心点,绿色表示小框,红色表示横向的大框,蓝色表示纵向的大框。可见每个query都有自己的特点,比如第一个query会一直问左边的小框里是什么,第二个会问中间的大框是什么,等等。我们可以把每个object query看成一个关注于某个区域,某些大小物体的提问者。然后这些提问者就是模型训练出来的提问者,各有所长。