语义分割之dice loss深度分析（梯度可视化）

最新推荐文章于 2025-02-19 16:02:11 发布

taoqick

最新推荐文章于 2025-02-19 16:02:11 发布

阅读量3k

点赞数 4

文章标签：深度学习机器学习

原文链接：https://zhuanlan.zhihu.com/p/269592183

版权

dice loss 来自文章VNet(V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation)，旨在应对语义分割中正负样本强烈不平衡的场景。本文通过理论推导和实验验证的方式对dice loss进行解析，帮助大家去更好的理解和使用。

dice loss 定义

dice loss 来自 dice coefficient，是一种用于评估两个样本的相似性的度量函数，取值范围在0到1之间，取值越大表示越相似。dice coefficient定义如下:

def dice_loss(target，predictive，ep=1e-8):
    intersection = 2 * torch.sum(predictive * target) + ep
    union = torch。sum(predictive) + torch.sum(target) + ep
    loss = 1 - intersection / union
    return loss

梯度分析

从dice loss的定义可以看出，dice loss 是一种区域相关的loss。意味着某像素点的loss以及梯度值不仅和该点的label以及预测值相关，和其他点的label以及预测值也相关，这点和ce (交叉熵cross entropy) loss 不同。因此分析起来比较复杂，这里我们简化一下，首先从loss曲线和求导曲线对单点输出方式分析。然后对于多点输出的情况，利用模拟预测输出来分析其梯度。而多分类softmax是sigmoid的一种推广，本质一样，所以这里只考虑sigmoid输出的二分类问题，首先sigmoid函数定义如下:

可以看出:

一般情况下，dice loss 正样本的梯度大于背景样本的; 尤其是刚开始网络预测接近0.5的时候，这点和单点输出的现象一致。说明 dice loss 更具有指向性，更加偏向于正样本，保证有较低的FN。
负样本(背景区域)也会产生梯度。
极端情况下，网络预测接近0或1时，对应点梯度值极小，dice loss 存在梯度饱和现象。此时预测失败(FN，FP)的情况很难扭转回来。不过该情况出现的概率较低，因为网络初始化输出接近0.5，此时具有较大的梯度值。而网络通过梯度下降的方式更新参数，只会逐渐削弱预测失败的像素点。
对于ce loss，当前的点的梯度仅和当前预测值与label的距离相关，预测越接近label，梯度越小。当网络预测接近0或1时，梯度依然保持该特性。
对比发现，训练前中期，dice loss下正样本的梯度值相对于ce loss，颜色更亮，值更大。说明dice loss 对挖掘正样本更加有优势。

dice loss为何能够解决正负样本不平衡问题?

因为dice loss是一个区域相关的loss。区域相关的意思就是，当前像素的loss不光和当前像素的预测值相关，和其他点的值也相关。dice loss的求交的形式可以理解为mask掩码操作，因此不管图片有多大，固定大小的正样本的区域计算的loss是一样的，对网络起到的监督贡献不会随着图片的大小而变化。从上图可视化也发现，训练更倾向于挖掘前景区域，正负样本不平衡的情况就是前景占比较小。而ce loss 会公平处理正负样本，当出现正样本占比较小时，就会被更多的负样本淹没。

总结

dice loss 对正负样本严重不平衡的场景有着不错的性能，训练过程中更侧重对前景区域的挖掘。但训练loss容易不稳定，尤其是小目标的情况下。另外极端情况会导致梯度饱和现象。因此有一些改进操作，主要是结合ce loss等改进，比如: dice+ce loss，dice + focal loss等，本文不再论述。