[自注意力神经网络]DETR目标检测网络

ViperL1

已于 2023-03-21 14:46:20 修改

阅读量1.5k

点赞数 3

分类专栏：神经网络学习笔记文章标签：目标检测神经网络深度学习 transformer

于 2023-03-07 10:25:18 首次发布

本文链接：https://blog.csdn.net/weixin_37878740/article/details/129375104

版权

学习笔记同时被 2 个专栏收录

155 篇文章 14 订阅

订阅专栏

神经网络

72 篇文章 16 订阅

订阅专栏

一、概述

相较于传统目标检测，DETR是一种纯端到端的网络。它不再需要NMS(非极大值抑制，用于去除多余的预测框)和生成anchor。

DETR提出了一个新的目标函数（二分图匹配），这个函数可以强制网络输出一个独一无二的预测值（没有冗余的预测框）。

二、网络结构

DETR的前向流程如上图所示：①使用一个CNN抽取图片的特征；②将这个特征拉平；③将拉平后的特征送入Transformer的encoder-decoder单元；④由decoder输出预测框的信息（出框的信息是一个超参数，原文为100）⑤利用二分图匹配的方式将Ground Truth与预测结果进行匹配，对于匹配成功的框才会进一步计算loss（没有匹配成功的框将会被标记为no object<背景类>）

1.基于集合的目标函数

DETR的输出是一个固定集合（固定数目）。为了在这些集合中找到正确的预测框，DETR采用了一个二分图匹配的方法来解决这个问题。具体做法是：将n个预测框和x个Ground Turth构建成一个cost matrix（代价矩阵），通过算法在其中找出代价最小的排列。

矩阵中的内容为损失函数（分类Loss和框体Loss），公式即可写为：

这个公式的意义是：在二分图匹配的基础上计算两个loss（分类Loss和框体Loss），其中对于第一个loss，由于要与第二个loss取值范围一致，其log被去除且实验表明并不会影响结果；对于第二个loss，由于L1-Loss会对大物体敏感，所以采用generalized iou loss来计算（与物体大小无关）。