PaddleOCR 文字检测部分源码学习(7)-损失函数（3）

最新推荐文章于 2024-05-15 07:22:59 发布

shy2218

最新推荐文章于 2024-05-15 07:22:59 发布

阅读量3.4k

点赞数

文章标签：计算机视觉深度学习 python

本文链接：https://blog.csdn.net/shy2218/article/details/121894936

版权

2021SC@SDUSC 专栏收录该内容

13 篇文章 7 订阅

订阅专栏

2021SC@SDUSC
DB损失函数
代码位置：ppocr->losses->det_db_loss.py



from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

from paddle import nn

from .det_basic_loss import BalanceLoss, MaskL1Loss, DiceLoss


class DBLoss(nn.Layer):
    """
    Differentiable Binarization (DB) Loss Function
    args:
        param (dict): the super paramter for DB Loss
    """

    def __init__(self,
                 balance_loss=True,
                 main_loss_type='DiceLoss',
                 alpha=5,
                 beta=10,
                 ohem_ratio=3,
                 eps=1e-6,
                 **kwargs):
        super(DBLoss, self).__init__()
        self.alpha = alpha
        self.beta = beta
        self.dice_loss = DiceLoss(eps=eps)
        self.l1_loss = MaskL1Loss(eps=eps)
        self.bce_loss = BalanceLoss(
            balance_loss=balance_loss,
            main_loss_type=main_loss_type,
            negative_ratio=ohem_ratio)

    def forward(self, predicts, labels):
        predict_maps = predicts['maps']
        label_threshold_map, label_threshold_mask, label_shrink_map, label_shrink_mask = labels[
            1:]
        shrink_maps = predict_maps[:, 0, :, :]
        threshold_maps = predict_maps[:, 1, :, :]
        binary_maps = predict_maps[:, 2, :, :]

        loss_shrink_maps = self.bce_loss(shrink_maps, label_shrink_map,
                                         label_shrink_mask)
        loss_threshold_maps = self.l1_loss(threshold_maps, label_threshold_map,
                                           label_threshold_mask)
        loss_binary_maps = self.dice_loss(binary_maps, label_shrink_map,
                                          label_shrink_mask)
        loss_shrink_maps = self.alpha * loss_shrink_maps
        loss_threshold_maps = self.beta * loss_threshold_maps

        loss_all = loss_shrink_maps + loss_threshold_maps \
                   + loss_binary_maps
        losses = {'loss': loss_all, \
                  "loss_shrink_maps": loss_shrink_maps, \
                  "loss_threshold_maps": loss_threshold_maps, \
                  "loss_binary_maps": loss_binary_maps}
        return losses

DB/decoders/seg_detector_loss.py

loss = dice_loss + 10 * l1_loss + 5*bce_loss

loss = dice_loss + 10 * l1_loss + 5*bce_loss
1
输出是单个单通道图，probability map和approximate binary map是典型的分割输出，故其loss就是普通的bce，但是为了平衡正负样本，还额外采用了难负样本采样策略，对背景区域和前景区域采用3:1的设置。对于threshold map，其输出不一定是0-1之间，后面会介绍其值的范围，当前采用的是L1 loss，且仅仅计算扩展后的多边形内部区域，其余区域忽略。

Ls是概率图，Lt是阈值图，Lb是近似二值化图，

本文整个论文Loss的实现在decoders/seg_detector_loss.py的L1BalanceCELoss类，可以发现其实approximate binary map采用的并不是论文中的bce，而是可以克服正负样本平衡的dice loss。一般在高度不平衡的二值分割任务中，dice loss效果会比纯bce好，但是更好的策略是dice loss +bce loss。损失函数分为三部分：概率图损失，阈值损失，二值图损失。其中概率图和二值图都使用交叉熵损失函数，而阈值损失使用的是L1损失函数。

由于交叉熵损失会分别评估每个像素的类别预测，然后对所有像素的损失进行平均，因此我们实质上是在对图像中的每个像素进行平等地学习。如果多个类在图像中的分布不均衡，那么这可能导致训练过程由像素数量多的类所主导，即模型会主要学习数量多的类别样本的特征，并且学习出来的模型会更偏向将像素预测为该类别。

FCN论文和U-Net论文中针对这个问题，对输出概率分布向量中的每个值进行加权，即希望模型更加关注数量较少的样本，以缓解图像中存在的类别不均衡问题。

比如对于二分类，正负样本比例为1: 99，此时模型将所有样本都预测为负样本，那么准确率仍有99%这么高，但其实该模型没有任何使用价值。

shy2218

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PaddleOCR 文字检测部分源码学习(7)-损失函数（3）

2021SC@SDUSCDB损失函数代码位置：ppocr->losses->det_db_loss.pyfrom __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionfrom paddle import nnfrom .det_basic_loss import BalanceLoss, MaskL1Loss, DiceLos
复制链接

扫一扫