零基础入门语义分割-Task4 评价函数与损失函数

最新推荐文章于 2024-05-07 12:07:23 发布

csCaiRujia

最新推荐文章于 2024-05-07 12:07:23 发布

阅读量352

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/Dream_xd/article/details/114272494

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文内容主要介绍语义分割中的评价函数和损失函数。

常见的评价函数

Dice
IoU
BCE
Focal Loss
Lovász-Softmax

Dice评价指标

Dice系数

Dice系数（Dice coefficient）是常见的评价分割效果的方法之一，同样也可以改写成损失函数用来度量prediction和target之间的距离。Dice系数定义如下：

$\frac{2 |T \cap P|}{|T| \cup |P|} = \frac{2TP}{FP+2TP+FN}$ 式中： $T$ 表示真实前景（target）， $P$ 表示预测前景（prediction）。Dice系数取值范围为 $[0, 1]$ ，其中值为1时代表预测与真实完全一致。仔细观察，Dice系数与分类评价指标中的F1 score很相似：

$2\cdot \frac{P\cdot R}{P+R}$
$\ F1 = \frac{2TP}{FP+2TP+FN}$

所以，Dice系数不仅在直观上体现了target与prediction的相似程度，同时其本质上还隐含了精确率和召回率两个重要指标。

计算Dice时，将 $\cap P|$ 近似为prediction与target对应元素相乘再相加的结果。 $∣ T ∣$ 和 $∣ P ∣$ 的计算直接进行简单的元素求和（也有一些做法是取平方求和），如下示例： $\cap P| = \begin{bmatrix} 0.01 & 0.03 & 0.02 & 0.02 \ 0.05 & 0.12 & 0.09 & 0.07 \ 0.89 & 0.85 & 0.88 & 0.91 \ 0.99 & 0.97 & 0.95 & 0.97 \ \end{bmatrix} * \begin{bmatrix} 0 & 0 & 0 & 0 \ 0 & 0 & 0 & 0 \ 1 & 1 & 1 & 1 \ 1 & 1 & 1 & 1 \ \end{bmatrix} \stackrel{}{\rightarrow} \begin{bmatrix} 0 & 0 & 0 & 0 \ 0 & 0 & 0 & 0 \ 0.89 & 0.85 & 0.88 & 0.91 \ 0.99 & 0.97 & 0.95 & 0.97 \ \end{bmatrix} \stackrel{sum}{\rightarrow} 7.41$

$\begin{bmatrix} 0.01 & 0.03 & 0.02 & 0.02 \ 0.05 & 0.12 & 0.09 & 0.07 \ 0.89 & 0.85 & 0.88 & 0.91 \ 0.99 & 0.97 & 0.95 & 0.97 \ \end{bmatrix} \stackrel{sum}{\rightarrow} 7.82$

$\begin{bmatrix} 0 & 0 & 0 & 0 \ 0 & 0 & 0 & 0 \ 1 & 1 & 1 & 1 \ 1 & 1 & 1 & 1 \ \end{bmatrix} \stackrel{sum}{\rightarrow} 8$

Dice Loss

Dice Loss是在V-net模型中被提出应用的，是通过Dice系数转变而来，其实为了能够实现最小化的损失函数，以方便模型训练，以 $1 - D i c e$ 的形式作为损失函数： $1-\frac{2 |T \cap P|}{|T| \cup |P|}$ 在一些场合还可以添加上Laplace smoothing减少过拟合： $1-\frac{2 |T \cap P| + 1}{|T| \cup |P|+1}$

代码实现

import numpy as np

def dice(output, target):
    '''计算Dice系数'''
    smooth = 1e-6 # 避免0为除数
    intersection = (output * target).sum()
    return (2. * intersection + smooth) / (output.sum() + target.sum() + smooth)

# 生成随机两个矩阵测试
target = np.random.randint(0, 2, (3, 3))
output = np.random.randint(0, 2, (3, 3))

d = dice(output, target)
# ----------------------------
target = array([[1, 0, 0],
       			[0, 1, 1],
			    [0, 0, 1]])
output = array([[1, 0, 1],
       			[0, 1, 0],
       			[0, 0, 0]])
d = 0.5714286326530524

IoU评价指标

IoU（intersection over union）指标就是常说的交并比，不仅在语义分割评价中经常被使用，在目标检测中也是常用的评价指标。顾名思义，交并比就是指target与prediction两者之间交集与并集的比值： $IoU=\frac{T \cap P}{T \cup P}=\frac{TP}{FP+TP+FN}$ 仍然以人物前景分割为例，如下图，其IoU的计算就是使用 $i n t e r s e c t i o n / u n i o n$ 。

iou公式和Dice非常相似。
在这里插入图片描述

BCE损失函数

BCE损失函数（Binary Cross-Entropy Loss）是交叉熵损失函数（Cross-Entropy Loss）的一种特例，BCE Loss只应用在二分类任务中。针对分类问题，单样本的交叉熵损失为： $l(\pmb y, \pmb{\hat y})=- \sum_{i=1}^{c}y_i \cdot log\hat y_i$ 式中， $\pmb{y}={y_1,y_2,...,y_c,}$ ，其中 $y_i$ 是非0即1的数字，代表了是否属于第 $i$ 类，为真实值； $\hat y_i$ 代表属于第i类的概率，为预测值。可以看出，交叉熵损失考虑了多类别情况，针对每一种类别都求了损失。针对二分类问题，上述公式可以改写为： $l(y,\hat y)=-[y \cdot log\hat y +(1-y)\cdot log (1-\hat y)]$ 式中, $y$ 为真实值，非1即0； $\hat y$ 为所属此类的概率值，为预测值。这个公式也就是BCE损失函数，即二分类任务时的交叉熵损失。值得强调的是，公式中的 $\hat y$ 为概率分布形式，因此在使用BCE损失前，都应该将预测出来的结果转变成概率值，一般为sigmoid激活之后的输出。

4.6 Focal Loss

Focal loss最初是出现在目标检测领域，主要是为了解决正负样本比例失调的问题。那么对于分割任务来说，如果存在数据不均衡的情况，也可以借用focal loss来进行缓解。Focal loss函数公式如下所示：

$-\frac{1}{N} \sum_{i=1}^{N}\left(\alpha y_{i}\left(1-p_{i}\right)^{\gamma} \log p_{i}+(1-\alpha)\left(1-y_{i}\right) p_{i}^{\gamma} \log \left(1-p_{i}\right)\right)$ 仔细观察就不难发现，它其实是BCE扩展而来，对比BCE其实就多了个 $\alpha(1-p_{i})^{\gamma}和(1-\alpha)p_{i}^{\gamma}$ 为什么多了这个就能缓解正负样本不均衡的问题呢？见下图：
在这里插入图片描述

简单来说： $α$ 解决样本不平衡问题， $γ$ 解决样本难易问题。

也就是说，当数据不均衡时，可以根据比例设置合适的 $α$ ，这个很好理解，为了能够使得正负样本得到的损失能够均衡，因此对loss前面加上一定的权重，其中负样本数量多，因此占用的权重可以设置的小一点；正样本数量少，就对正样本产生的损失的权重设的高一点。

那γ具体怎么起作用呢？以图中 $γ = 5$ 曲线为例，假设 $g t$ 类别为1，当模型预测结果为1的概率 $p_t$ 比较大时，我们认为模型预测的比较准确，也就是说这个样本比较简单。而对于比较简单的样本，我们希望提供的loss小一些而让模型主要学习难一些的样本，也就是 $p_t→ 1$ 则loss接近于0，既不用再特别学习；当分类错误时， $p_t → 0$ 则loss正常产生，继续学习。对比图中蓝色和绿色曲线，可以看到，γ值越大，当模型预测结果比较准确的时候能提供更小的loss，符合我们为简单样本降低loss的预期。

4.7 Lovász-Softmax

IoU是评价分割模型分割结果质量的重要指标，因此很自然想到能否用 $1 - I o U$ （即Jaccard loss）来做损失函数，但是它是一个离散的loss，不能直接求导，所以无法直接用来作为损失函数。为了克服这个离散的问题，可以采用lLovász extension将离散的Jaccard loss 变得连续，从而可以直接求导，使得其作为分割网络的loss function。Lovász-Softmax相比于交叉熵函数具有更好的效果。

论文地址：

paper on CVF open access

arxiv paper

代码实现

论文作者已经给出了Lovász-Softmax实现代码，并且有pytorch和tensorflow两种版本，并提供了使用demo。此处将针对多分类任务的Lovász-Softmax源码进行展示。

Lovász-Softmax实现链接：https://github.com/bermanmaxim/LovaszSoftmax