本文参考文献:Ma, J. (2020). Segmentation loss odyssey. arXiv preprint arXiv:2005.13449.
其它参考网址
1.基于分布的损失函数
基于分布的损失函数旨在最小化两个分布之间的差异。 此类别中最基本的功能是交叉熵。 所有其他函数都可以看做是交叉熵的推演。
1.1 交叉熵(CE)
交叉熵(CE)来自Kullback-Leibler(KL)散度,该散度是两个分布之间差异的度量。最小化KL差异等效于最小化CE。
- g i c g_{i}^{c} gic是一个二分类判别器,表示第 i i i个像素是否属于第 c c c类;
- s i c s_{i}^{c} sic表示第 i i i个像素是否属于第 c c c类对应的预测概率;
1.2 加权交叉熵(WCE)
- w c w_{c} wc表示每个类别的权重,通常与类别频率成反比,因此可以惩罚占大多数的类别;
- g i c g_{i}^{c} gic是一个二分类判别器,表示第 i i i个像素是否属于第 c c c类;
- s i c s_{i}^{c} sic表示第 i i i个像素是否属于第 c c c类对应的预测概率;
1.3 TopKloss
TopK损失旨在迫使网络在训练期间专注于难的样本。
简单的像素,即损失值低于t的像素,由于它们容易被当前模型分类而被丢弃。
- t ∈ { 0 , 1 } t \in \{0,1\} t∈{ 0,1}为阈值
- l { . . . } l \{...\} l{ ...}是一个二分类判别函数
- s i c s_{i}^{c} sic表示第 i