深度学习| Focal Loss（包含代码实现）

魔法自动机

已于 2024-04-18 10:33:57 修改

阅读量2k

点赞数 34

分类专栏：人工智能文章标签：深度学习人工智能 Focal Loss

于 2024-04-14 20:09:52 首次发布

本文链接：https://blog.csdn.net/qq_40306845/article/details/137645449

版权

人工智能专栏收录该内容

21 篇文章

订阅专栏

前言：最近在解决图像类别不平衡的问题，之前介绍了DiceLoss，试了代码虽然又改善但还没解决问题。我要处理图像样本类别属于极度不均衡，了解到FocalLoss也能解决这个问题，于是就想写这篇文章作为记录。

介绍

解决什么问题：Focal Loss解决的是深度学习遇到类别不平衡的问题，直接用交叉熵损失函数计算损失函数，会使得最终结果偏向于常见类别。

如何解决这个问题：Focal Loss在交叉熵函数的基础上引入了超参数，增大类别少的样本的权重，以及调整易分类样本和困难样本之间的权重关系。

原理和公式

Focal Loss其实是在交叉熵损失函数（Cross Entropy Loss）上改进过来的。

交叉熵损失函数（Cross Entropy Loss）：
$H(y,\widehat{y})=- \frac{1}{N} \sum_{i=1}^N[y_ilog(\widehat{y}_i)+(1-y_i)log(1-\widehat{y}_i)]$
这是一个二分类的CE公式，其中y是真实标签， $\widehat{y}$ 是预测值，N是样本的数量。
原理上，每个样本都会计算一个损失，然后对所有样本的损失求平均。
对于图像来说，这里的N可以看作是图像像素点的个数， $\widehat{y}$ 是预测每个像素点的值，y是每个像素点标签的值，一张图像的交叉熵其实就是计算每个像素点预测值和标签插值的平均。

这个CE公式也可以写成如下形式：
$CE (pt) = - l o g (pt)$
$p_t= \begin{cases} \ p, & y=1\\ \ 1-p, & otherwise \end{cases}$
$p_t$ 表示预测值和真实值之间的差。

Focal Loss公式：
在CE的基础上引入了超参数 $\gamma$ 和 $\alpha$ ，每个样本的损失构成了如下公式：
$FL(p_t)=-\alpha(1-p_t)^\gamma log(p_t) =\alpha(1-p_t)^\gamma CE(pt)$
其中 $p_t$ 是该样本某个类别的预测值，Focal Loss类别一般采用one-hot编码； $\alpha$ 是给不同类别样本加的权重，对于正样本比较少，就可以加大权重； $\gamma$ 的作用在于如果当前样本预测值 $p_t$ 比较大，就是易分类样本，就会使得 $(1-p_t)^\gamma$ 减小。
其实也就相当于计算每个样本交叉熵前面加多了两个权重，一个是类别权重，一个是样本难易权重。类别权重可以更重视类别占比小的；样本难以权重可以更加关注困难样本。

所以实际上Focal Loss是解决了两个问题：样本不均+难易样本。

$\gamma$ 和 $\alpha$ 如何确定

在Focal Loss论文中，作者通过搜索一个范围来确定两个参数的最优解，最后给出的结果是 $\gamma=2$ 和 $\alpha=0.25$ 。在该论文任务中，正样本是大大少于负样本的，而正样本参数 $\alpha=0.25$ ，负样本参数 $\alpha=0.75$ ，非常反直觉。经过 $(1-p_t)^\gamma$ 和 ${p_t}^\gamma$ 后，正负样本之间的形式会逆转，还要通过 $\alpha$ 给正样本降权。

所以 $\gamma$ 和 $\alpha$ 的确定更多还是实验经验的结果，没有什么理论上的方法。

代码

class FocalLoss(nn.Module):
    def __init__(self, alpha=0.25, gamma=2.0, reduction='mean'):
        super(FocalLoss, self).__init__()
        self.alpha = alpha
        self.gamma = gamma
        self.reduction = reduction
        self.cross_entropy_loss = CrossEntropyLoss2d()
    
    def forward(self, inputs, targets):
    	# CE_loss = F.binary_cross_entropy_with_logits(inputs, targets, reduction='none')# 要求inputs和targets张量形状一样
        CE_loss = self.cross_entropy_loss(inputs, targets)# inputs可以是NxCxHxW，targets可以是NxHxW，会自动对其张量
        pt = torch.exp(-CE_loss) # 预测正确的概率
        F_loss = self.alpha * (1-pt)**self.gamma * CE_loss
        
        if self.reduction == 'mean':
            return torch.mean(F_loss)
        elif self.reduction == 'sum':
            return torch.sum(F_loss)
        else:
            return F_loss