中计算散度的函数_语义分割中的损失函数

最新推荐文章于 2024-03-08 10:13:52 发布

tekiz

最新推荐文章于 2024-03-08 10:13:52 发布

阅读量231

点赞数

文章标签：中计算散度的函数

本文链接：https://blog.csdn.net/weixin_28901739/article/details/112649445

版权

本文介绍了几种在语义分割任务中常用的损失函数，包括交叉熵、改进的Ohem Cross Entropy Loss和Focal Loss，针对样本不平衡问题进行了讨论。此外，还探讨了Dice Loss及其优势，以及Lovasz Loss作为优化分割任务的损失函数。

摘要由CSDN通过智能技术生成

1 交叉熵

信息量：当一个事件发生的概率为

，那么该事件对应的概率的信息量是

。

信息量的熵：信息量的期望，假设事件

共有n种可能，发生

的概率为

，那么该事件的熵

为：

相对熵，又称KL散度，如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。在机器学习中，P往往用来表示样本的真实分布，Q用来表示模型所预测的分布，那么KL散度就可以计算两个分布的差异，也就是Loss损失值。

从KL散度公式中可以看到Q的分布越接近P（Q分布越拟合P），那么散度值越小，即损失值越小。

因为对数函数是凸函数，所以KL散度的值为非负数。有时会将KL散度称为KL距离，但它并不满足距离的性质：

KL散度不是对称的；
KL散度不满足三角不等式。

我们将KL散度公式进行变形：

等式的前一部分恰巧就是p的熵，等式的后一部分，就是交叉熵：

在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，即

，由于KL散度中的前一部分−H(y)不变，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss，评估模型。

2 为解决样本不平衡的改进

Ohem Cross Entropy Loss

Ohem：Online Hard Example Mining，选择一些hard example作为训练的样本从而改善网络参数效果，hard example指的是有多样性和高损失的样本

Focal Loss

对于二分类的交叉熵损失如下：

一个解决类别不均衡的方法是对类别+1引入权重参数

，则类别-1的权重为

。

是可以被设置类频数的倒数，或者通过交叉验证设置。以

为平衡参数的交叉熵损失如下：

在训练过程中，容易分类的负样本将占据损失的主要部分，影响梯度的回传。然而

平衡了正样本和负样本的重要性，但是无法区分容易区分的样本和不容易区分的样本。Focal loss则动态调整损失函数，以降低容易区分样本的权重并聚焦不易区分的样本，Focal loss的交叉熵损失定义如下：

以

为平衡参数的Focal loss的变种如下：

3 Dice Loss

Dice系数，是一种集合相似度度量函数，通常用于计算两个样本的相似度（范围为[0, 1]）。

在语义分割中，X是Ground Truth分割图像，Y是预测的分割图像。

Dice系数差异函数（Dice loss）：

Dice系数是分割效果的一个评判指标，其公式相当于预测结果区域和ground truth区域的交并比，所以它是把一个类别的所有像素作为一个整体去计算Loss的。因为Dice Loss直接把分割效果评估指标作为Loss去监督网络，而且计算交并比时还忽略了大量背景像素，解决了正负样本不均衡的问题，所以收敛速度很快。

Dice Loss和交叉熵函数的比较：

交叉熵损失函数中交叉熵值梯度计算形式类似于

，其中，

是

输出，

为

。

而关于 dice-coefficient 的可微形式，loss 值为

或

，其关于 p 的梯度形式是比较复杂的：

或

。极端场景下，当 p 和 t 的值都非常小时，计算得到的梯度值可能会非常大. 通常情况下，可能导致训练更加不稳定。