还看不懂 DETR 的匈牙利损失函数？4个公式教你理解

最新推荐文章于 2025-04-04 01:35:52 发布

Jiangnan_Cai

最新推荐文章于 2025-04-04 01:35:52 发布

阅读量2.1k

点赞数 24

分类专栏：深度学习文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/Jiangnan_Cai/article/details/139931821

版权

深度学习专栏收录该内容

19 篇文章

订阅专栏

看到 DETR 的损失函数的时候，你是否有下面的疑问：

公式中的 $\sigma \in \mathfrak{S}_N$ 是什么意思?
公式中的 $\hat{y}_{\sigma(i)}$ 的下标 $\sigma(i)$ 又有什么含义？
DETR 的损失函数计算的完整流程又是怎么样的？
为什么计算 box 损失的时候为什么要加上 GIOU 损失
…

等等问题，都可以在下面的文章中得到解答。

概述

在 DETR 中，进行梯度更新可以分成 2 步：

使用匈牙利匹配算法，根据优化函数求解集合 $y$ 与 $\hat{y}$ 的最佳匹配：集合 $\hat{y}$ 的排列 $\hat{\sigma}$ 。 $\hat{\sigma}=\argmin_{\sigma \in \mathfrak{S}_N }\sum_i^{N}\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)})$ $\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)}) = -\mathbb{1}_{\{c_i\ne \varnothing\}}\hat{p}_{\sigma(i)}(c_i) + \mathbb{1}_{\{c_i\ne \varnothing\}}\mathcal{L}_{\text{box}}(b_i, \hat{b}_{\sigma(i)} )$
根据集合 $\hat{y}$ 最佳排列 $\hat{\sigma}$ 带入损失函数中求解损失，并进行梯度更新。 $\mathcal{L}_{\text{Hungarian}}(y, \hat{y}) = \sum_{i=1}^N \left[ -\log\hat{p}_{\hat{\sigma}(i)}(c_i) + \mathbb{1}_{\{c_i \ne \varnothing\}}\mathcal{L}_{\text{box}}(b_i, \hat{b}_{\hat{\sigma}(i)})\right]$ $\mathcal{L}_{\text{box}}(b_i,\hat{b}_{\hat{\sigma}(i)}) =\lambda_{\text{giou}}\mathcal{L}_{\text{giou}}(b_i,\hat{b}_{\hat{\sigma}(i)}) + \lambda_{\text{L1}}||b_i - \hat{b}_{\hat{\sigma}(i)}||_1$

可以看出来，其实想要理解 DETR 的损失函数是怎么计算的，只要理解上面的 4 个公式就行了。

第一步：求最佳 $\hat{\sigma}$

$\hat{\sigma}=\argmin_{\sigma \in \mathfrak{S}_N }\sum_i^{N}\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)})$ （还不算是损失函数，只是通过匈牙利匹配算法求解最优排列的一个优化目标函数）

$y=\{y_i\}_{i=1}^N$ ：表示 $N$ 个 ground truth 的集合，其中 $y_i$ 是第 $i$ 个 ground truth，当然实际中，集合 $y$ 中的 ground truth 数量是远小于 $N$ 的，为了让 $y$ 与 $\hat{y}$ 两个集合大小一致，在集合 $y$ 中会使用 $\varnothing$ （no object）来对集合进行填充。
$\hat{y}=\{\hat{y}_i\}_{i=1}^N$ ：表示 $N$ 个预测的集合，其中 $\hat{y}_i$ 是第 $i$ 个预测。
$\sigma$ ：是一种预测值 $\hat{y}$ 的排列方式，我们知道集合 $y$ 与集合 $\hat{y}$ 要一一匹配，然后进行排列，我们把 $y$ 的排列顺序固定，就只需要调整 $\hat{y}$ 的排列顺序就可以了，而 $\sigma$ 就是表示的集合 $\hat{y}$ 的某种排列方式， $\hat{y}_{\sigma(i)}$ 也只是表示，在 $\sigma$ 这种排列中，第 $i$ 个预测值。
$\mathfrak{S}_N$ ：是排列 $\sigma$ 的集合，也是一种对称群？ $\argmin_{\sigma \in \mathfrak{S}_N }$ 表示在 $\mathfrak{S}_N$ 内存在一种集合 $\hat{y}$ 的排列 $\sigma$ ，可以使得匈牙利匹配的 cost 最低。
$\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)})$ ：是 pair-wise matching cost ，一般是使用匈牙利算法进行计算的。

$\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)}) = -\mathbb{1}_{\{c_i\ne \varnothing\}}\hat{p}_{\sigma(i)}(c_i) + \mathbb{1}_{\{c_i\ne \varnothing\}}\mathcal{L}_{\text{box}}(b_i, \hat{b}_{\sigma(i)} )$ 每个 ground truth $y_i$ 都是由两部分信息组成的，类别 + 位置，也可以写成 $y_i=(c_i, b_i)$ ，其中：

$c_i$ ：表示类别信息（也有可能是空 $\varnothing$ ）
$b_i$ ：表示位置信息，是一个归一化（值都小于 1 ）的向量，有 4 个值，分别表示 box 中心点的坐标和宽高。

对于预测值 $\hat{y}_{\sigma(i)}$ ，我们将类别和位置信息定义为 $\hat{y}_{\sigma(i)}=(\hat{p}_{\sigma(i)}(c_i), \hat{b}_{\sigma(i)})$ 。

$\hat{p}_{\sigma(i)}(c_i)$ ：我们已经知道了 ground truch 的类别信息 $c_i$ ，这个概率值是通过模型的分类器计算得出的，反映了模型对于该预测值属于类别 $c_i$ 的确信度。

第二步：求损失

$\mathcal{L}_{\text{Hungarian}}(y, \hat{y}) = \sum_{i=1}^N \left[ -\log\hat{p}_{\hat{\sigma}(i)}(c_i) + \mathbb{1}_{\{c_i \ne \varnothing\}}\mathcal{L}_{\text{box}}(b_i, \hat{b}_{\hat{\sigma}(i)})\right]$ 论文这里还将 $\hat{b}_{\hat{\sigma}(i)}$ 打错成了 $\hat{b}_{\hat{\sigma}}(i)$ 。

$\hat{\sigma}$ 是最优的排列，也就是使得整体 cost 最小的 $\hat{y}$ 排列。
$\log$ ：这里存在一个问题，为什么上面的 $-\mathbb{1}_{\{c_i\ne \varnothing\}}\hat{p}_{\sigma(i)}(c_i)$ 在这里就变成了 $-\log\hat{p}_{\hat{\sigma}(i)}(c_i)$ 。一个 no object $\varnothing$ （ $y$ ）与预测值（ $\hat{y}$ ）的 $\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)})$ 匹配代价实际上并不取决于预测值，因为 $c_i = \varnothing$ 的时候，因为指示函数的关系， $\mathcal{L}_{\text{match}}(y_i, \hat{y}_{\sigma(i)}) = 0$ ，也就是一个常数。在计算匹配代价（cost）的类别代价（cost）的时候，我们使用概率而不是对数概率，因为实际效果更好。
上面的公式是为了求解最优的排列 $\hat{\sigma}$ ，而这里根据最优的排列 $\hat{\sigma}$ 来求解损失。一般来说，为了解决类间不平衡问题，会在 $c_i = \varnothing$ 对数概率项前乘以 $1/10$ 来降低权重。

$\mathcal{L}_{\text{box}}(b_i,\hat{b}_{\hat{\sigma}(i)}) =\lambda_{\text{giou}}\mathcal{L}_{\text{giou}}(b_i,\hat{b}_{\hat{\sigma}(i)}) + \lambda_{\text{L1}}||b_i - \hat{b}_{\hat{\sigma}(i)}||_1$

直接使用 L1 损失：因为 L1 损失是计算绝对值，但是在目标检测中，大目标和小目标，即便是有着相同的相对误差（relative error），其绝对误差，也就是 L1 损失值都会有很大差异，对尺度的支持比较差。
所以为了缓解 L1 损失的尺度不变性比较差的问题，我们引入了 GIOU（关于 GIOU 的部分，我后续有时间再进行补充吧）