【炼丹术】——Focal Loss的理解

最新推荐文章于 2024-06-10 23:38:42 发布

黑白象

最新推荐文章于 2024-06-10 23:38:42 发布

阅读量954

点赞数 2

分类专栏：炼丹笔记深度学习理论 NLP 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/dendi_hust/article/details/116655739

版权

炼丹笔记同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

深度学习理论

4 篇文章 0 订阅

订阅专栏

NLP

2 篇文章 0 订阅

订阅专栏

1. 前言

Focal Loss最初是由Kaiming大神在Focal Loss for Dense Object Detection一文中提出的，旨在解决目标检测中的数据类别不平衡造成的模型性能问题，也常用于NLP领域。

本质上，Focal Loss是解决分类问题中类别不均衡、分类难度差异的一个损失函数。

2. 细节

2.1 交叉熵损失函数

$CE(p,y)=\left\{ \begin{matrix} -log(p), y=1 \\ -log(1-p) ,y=otherwise \end{matrix} \right.$
令：
$p_t=\left\{ \begin{matrix} p, y=1 \\ 1-p ,y=otherwise \end{matrix} \right.$
所以：
$CE(p,y)=CE(p_t)=-log(p_t)$

2.2 样本不平衡

对所有样本，其损失函数为：
$L=\frac{1}{N}\sum_{i=1}^Nl(y_i,\hat p_i)$
对于二分类问题，损失函数为：
$L=\frac{1}{N}(\sum_{y_i=1}^m-log(\hat p)+\sum_{y_i=0}^n-log(1-\hat p))$
其中m为正样本个数，n为负样本个数，N为样本总数， $N = m + n$ ，当样本分布失衡时损失函数的分布会发生倾斜（如 $m < < n$ 时，负样本的损失就会占据损失的主要部分）。由于损失函数倾斜，模型训练过程中会倾向于样本多的类别，从而造成模型对少样本类别的性能差。

2.3 balanced cross entropy

balanced cross entropy是平衡交叉熵函数，该函数为交叉熵损失函数增加一个权重因子，用来调整损失函数分布。公式如下：
$CE(p_t)=-\alpha _tlog(p_t)$
$\alpha$ 是超参数，一般类别样本数量越多 $\alpha$ 值越小。

2.4 focal loss

与balanced cross entropy不同的是：focal loss是从loss的角度解决样本不均衡问题，其公式如下：
$FL(p_t)=-(1-p_t)^\gamma log(p_t)$
其中 $\gamma >0$ ，是调整因子。当 $\gamma =0$ 时，focal loss等价于corss entorypy。如下图所示：
在这里插入图片描述

3. 特点

$(1-p_t)^{\gamma}$ 是调制因子（modulating factor）,从以上公式可得出如下推论：

当 $p_t$ 趋于0的时候（样本分类错误，属于难分类样本），调制因子趋于1，该部分损失在总loss中基本不受影响。当 $p_t$ 趋于1的时候（样本分类正确，属于易分类样本），调制因子趋于0，该部分损失在总loss中的权重变小。
参数 $\gamma$ 平滑的降低易分类样本损失在总损失的比例，使样本更加专注于学习难分类样本的特征。当 $\gamma =0$ 的时候，focal loss就是传统的交叉熵损失，可以通过调整 $\gamma$ 实现调制因子的改变。

4. 编码

class WeightedFocalLoss(nn.Module):
    "Non weighted version of Focal Loss"    
    def __init__(self, alpha=.25, gamma=2):
            super(WeightedFocalLoss, self).__init__()        
            self.alpha = torch.tensor([alpha, 1-alpha]).cuda()        
            self.gamma = gamma
            
    def forward(self, inputs, targets):
            BCE_loss = F.binary_cross_entropy_with_logits(inputs, targets, reduction='none')        
            targets = targets.type(torch.long)        
            at = self.alpha.gather(0, targets.data.view(-1))        
            pt = torch.exp(-BCE_loss)        
            F_loss = at*(1-pt)**self.gamma * BCE_loss        
            return F_loss.mean()

黑白象

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【炼丹术】——Focal Loss的理解

WhatFocal Loss最初是由Kaiming大神在Focal Loss for Dense Object Detection一文中提出的，旨在解决目标检测中的数据类别不平衡造成的模型性能问题，也常用于NLP领域。Why本质上，Focal Loss是解决分类问题中类别不均衡、分类难度差异的一个损失函数。fl VS bceHowCodeclass WeightedFocalLoss(nn.Module): "Non weighted version of Focal Loss" .
复制链接

扫一扫