分割loss
文章目录
1. CE Loss(交叉熵损失函数)
1. 二分类
在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为p
和1-p
,此时表达式为(log
的底数是 e
:
L
=
1
N
∑
i
L
i
=
1
N
∑
i
−
[
y
i
⋅
log
(
p
i
)
+
(
1
−
y
i
)
⋅
log
(
1
−
p
i
)
]
L=\frac{1}{N} \sum_i L_i=\frac{1}{N} \sum_i-\left[y_i \cdot \log \left(p_i\right)+\left(1-y_i\right) \cdot \log \left(1-p_i\right)\right]
L=N1i∑Li=N1i∑−[yi⋅log(pi)+(1−yi)⋅log(1−pi)]
其中
- y i y_i yi——表示样本 i i i 的label,正类为1,负类为0
- p i p_i pi——表示样本 i i i 预测为正类的概率
2. 多分类
多分类的情况实际上就是对二类的拓展:
L
=
1
N
∑
i
L
i
=
−
1
N
∑
i
∑
c
=
1
M
y
i
c
log
(
p
i
c
)
L=\frac{1}{N} \sum_i L_i=-\frac{1}{N} \sum_i \sum_{c=1}^M y_{i c} \log \left(p_{i c}\right)
L=N1i∑Li=−N1i∑c=1∑Myiclog(pic)
其中
- M M M——类别的数量
- y i c y_{ic} yic——符号函数(0或者1),如果样本 i i i 的真实类别等于 c c c 取 1,否则取 0
- p i c p_{ic} pic——观测样本 i i i 属于类别 c c c 的预测概率
2. WCE Loss (权重交叉熵损失函数)
为了平衡分割(分类)问题中的正负样本不平衡的问题,提出了WCE,其公式如下:
W
C
E
=
−
1
N
∑
i
=
1
N
α
y
i
log
p
i
+
(
1
−
y
i
)
log
(
1
−
p
i
)
W C E=-\frac{1}{N} \sum_{i=1}^N \alpha y_i \log p_i+\left(1-y_i\right) \log \left(1-p_i\right)
WCE=−N1i=1∑Nαyilogpi+(1−yi)log(1−pi)
其中
- α \alpha α——每个类别的权重, 一般根据目标像素所占比例的倒数来确定:
- y i y_i yi——表示样本 i i i 的label,正类为1,负类为0
- p i p_i pi——表示样本 i i i 预测为正类的概率
3. Focal Loss
Focal Loss的引入主要是为了解决**难易样本数量不平衡(注意,有区别于正负样本数量不平衡)**的问题,根据正、负、难、易一共可以分为以下4类:正难、正易、负难、负易。
L
=
−
1
N
∑
i
=
1
N
α
y
i
(
1
−
p
i
)
γ
log
(
p
i
)
+
(
1
−
α
)
(
1
−
y
i
)
(
p
i
)
γ
log
(
1
−
p
i
)
L=-\frac{1}{N} \sum_{i=1}^N \alpha y_i\left(1-p_i\right)^\gamma \log \left(p_i\right)+(1-\alpha)\left(1-y_i\right)\left(p_i\right)^\gamma \log \left(1-p_i\right)
L=−N1i=1∑Nαyi(1−pi)γlog(pi)+(1−α)(1−yi)(pi)γlog(1−pi)
其中
- α \alpha α——每个类别的权重, 一般根据目标像素所占比例的倒数来确定,尽管平衡了正负样本,但对难易样本的不平衡没有任何帮助;
- y i y_i yi——表示样本 i i i 的label,正类为1,负类为0;
- p i p_i pi——表示样本 i i i 预测为正类的概率;
- γ \gamma γ ——修正因子,调节难学样本的loss,可以降低分类正确的样本对熵的贡献,增加分类矛盾甚至分类错的结果对熵的贡献。同样的负样本的也按此类推。平衡难易样本。
4. Dice Loss
两个轮廓区域的相似程度,弥补交叉熵损失函数在分割任务中样本不均衡的问题
DiceLoss
=
1
−
2
∣
X
⋂
Y
∣
∣
X
∣
+
∣
Y
∣
\text { DiceLoss }=1-\frac{2|X \bigcap Y|}{|X|+|Y|}
DiceLoss =1−∣X∣+∣Y∣2∣X⋂Y∣
其中
- ∣ X ∣ |X| ∣X∣——ground truth
- ∣ Y ∣ |Y| ∣Y∣——predict_mask
5. GeneralizedDiceLoss
与原始的dice loss 相比,GDL 对多分类问题进行了扩展,可以同时优化多个类别的分割效果,对类别不均衡鲁棒性更好,公式如下:
G
D
L
=
1
−
2
∑
l
=
1
2
w
l
∑
n
r
l
n
p
l
n
∑
l
=
1
2
w
l
∑
n
r
l
n
+
p
l
n
\mathrm{GDL}=1-2 \frac{\sum_{l=1}^2 w_l \sum_n r_{l n} p_{l n}}{\sum_{l=1}^2 w_l \sum_n r_{l n}+p_{l n}}
GDL=1−2∑l=12wl∑nrln+pln∑l=12wl∑nrlnpln
其中
- w l w_l wl——为不同的类别提供不变性,每个类别之间的贡献将通过其体积的倒数进行校正。
- r l n r_{l n} rln ——ground truth
- p l n p_{l n} pln——predict_mask
6. GeneralizedWassersteinDiceLoss
是 Generalized Dice Loss (GDL) 的拓展,是一种更加稳定和高效的医学图像分割损失函数。Dice Loss
和GeneralizedDice Loss
对类不平衡问题更具鲁棒性。然而存在其他两个问题:至少有两个可用信息没有在这个公式中充分的被利用!
(1)标签空间的结构
(2)跨尺度的空间信息
GeneralizedWassersteinDiceLoss
引入了Wasserstein
距离:**利用Wasserstein
距离,它可以自然地嵌入类之间的语义关系,用于比较标签概率向量,以推广多类分割的Dice得分。实现更具语义意义的分割。**公式如下:
7. Tversky Loss
Tversky loss
是一种用于图像分割任务的损失函数,它是在 Dice loss
的基础上进行改进设计的。公式如下:
T
(
α
,
β
)
=
∑
i
=
1
N
p
0
i
g
0
i
∑
i
=
1
N
p
0
i
g
0
i
+
α
∑
i
=
1
N
p
0
i
g
1
i
+
β
∑
i
=
1
N
p
1
i
g
0
i
T(\alpha, \beta)=\frac{\sum_{i=1}^N p_{0 i} g_{0 i}}{\sum_{i=1}^N p_{0 i} g_{0 i}+\alpha \sum_{i=1}^N p_{0 i} g_{1 i}+\beta \sum_{i=1}^N p_{1 i} g_{0 i}}
T(α,β)=∑i=1Np0ig0i+α∑i=1Np0ig1i+β∑i=1Np1ig0i∑i=1Np0ig0i
其中
- α \alpha α——假阳的权重,在 α + β = 1 \alpha + \beta = 1 α+β=1的情况下, α \alpha α 越大,产生结果中假阳越小
- β \beta β——假阴的权重,在 α + β = 1 \alpha + \beta = 1 α+β=1的情况下, β \beta β 越大,产生结果中假阴越小
8. DiceCe Loss
L = α D i c e + β W C E L = {\alpha Dice} + {\beta WCE} L=αDice+βWCE
其中
-
α
\alpha
α——
Dice Loss
的权重 -
β
\beta
β——
WCE Loss
的权重
9. DiceFocal Loss
L
=
α
D
i
c
e
+
β
F
o
c
a
l
L = {\alpha Dice} + {\beta Focal}
L=αDice+βFocal
其中
-
α
\alpha
α——
Dice Loss
的权重 -
β
\beta
β——
Focal Loss
的权重
10. GeneralizedDiceFocalLoss
L = α G D L + β F o c a l L = {\alpha GDL} + {\beta Focal} L=αGDL+βFocal
其中
-
α
\alpha
α——
GeneralizedDiceLoss
的权重 -
β
\beta
β——
Focal Loss
的权重
11. MSE Loss
MSE(Mean Squared Error) 即均方误差,是回归任务中常用的一个损失函数。公式如下:
M
S
E
=
1
n
∑
i
=
1
n
(
y
i
−
y
i
^
)
2
MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2
MSE=n1i=1∑n(yi−yi^)2
其中
-
n n n ——样本数量
-
y i y_i yi—— 样本i的真实目标值
-
y i ^ \hat{y_i} yi^—— 样本i的预测值