【代码实践】focal loss损失函数及其变形原理详细讲解和图像分割实践（含源码）

WanHeng WyattVan

已于 2023-11-21 22:05:03 修改

阅读量8k

点赞数 21

文章标签：人工智能

于 2023-11-21 21:28:30 首次发布

本文链接：https://blog.csdn.net/BluErroR/article/details/134537105

版权

【代码实践】focal loss及其变形原理详细讲解和图像分割实践（含源码）

Focal Loss 是一种用于解决类别不平衡问题的损失函数，在目标检测和语义分割等任务中得到了广泛应用。传统的交叉熵损失函数(Cross-entropy Loss)在处理类别不平衡问题时，容易受到多数类别的影响，导致模型对少数类别的分类效果较差。Focal Loss 通过引入一个可调参数 $\gamma$ ，对少数类别的错误分类进行更加强烈的惩罚，从而提高模型对少数类别的分类能力。

1.Focal Loss定义

Focal Loss公式：
$L_{focal-loss} = (1 - p_t)^\gamma \cdot \log(p_t)$
其中：
$\left\{ \begin{aligned} \quad p_t &= p &,& y = 1\\ \quad p_t &= 1 - p&,&otherwise \end{aligned} \right.$

其中， $p^t$ 表示模型预测为正类别的概率， $\gamma$ 为平衡系数，用于调整正类别和负类别的平
衡。当 $\gamma=0$ 时，该focal loss损失函数就退化为普通的交叉熵损失函数,如下面公式所示：
$L_{ce} = L(y, p) = -y \log(p) - (1 - y) \log(1 - p)$

2.带权重的交叉熵损失函数

公式如下：
$L_{wce} = \frac{1}{N} \left( \sum_{y_i=1}^{m} (-\alpha \log p) + \sum_{y_i=0}^{n} -(1-\alpha)log(1-p) \right)$
其中：
$\frac{\alpha}{1-\alpha} = \frac{n}{m}$
即权重的大小根据正负样本的分布进行设置。

3.带权重的Focal Loss

3.1公式定义以及函数图像

受到带权重的交叉熵损失函数(章节2)的启发，则产生了带权重的 focal loss，将参数 $\alpha$ 引入focal loss 中，起到了对正负样本更强的平衡作用，函数定义如下公式:
$L_{wfl} = \begin{cases} -(1 - \alpha) p_t^\gamma \log(1 - p_t) & \text{当 } y = 0 \\ -\alpha (1 - p_t)^\gamma \log(p_t) & \text{当 } y = 1 \end{cases}$
在本文中采用 $\alpha=0.25, \gamma=2$ 作为参数值进行该损失函数设计，函数图像如下:
在这里插入图片描述

3.2原理解释（为什么能平衡正负样本）

观察图像 $y = 0$ ，这个曲线表示表示预测错误的情况，由函数图像可见，在预测错误的情况下，随着预测概率的提高，其对应的函数值越大，损失值也相应地增大，因此在反向传播时，训练错误的情况在全部loss中占据更大的比例，能更多地进行反向传播，使得模型训练更专注在负样本上。 $y = 1$ 的情况则与之相反。

4.代码编写

4.1 二分类focal loss

#适用于二分类的focal loss
class BinaryFocalLoss(nn.Module):
def __init__(self, alpha=0.25, gamma=2): # 定义alpha和gamma变量
    super(BinaryFocalLoss, self).__init__()
    self.alpha = alpha
    self.gamma = gamma

# 前向传播
def forward(self, preds, labels):
    eps = 1e-7  # 防止数值超出定义域
    # 开始计算
    loss_y1 = -1 * self.alpha * \
        torch.pow((1 - preds), self.gamma) * \
        torch.log(preds + eps) * labels
    loss_y0 = -1 * (1 - self.alpha) * torch.pow(preds,
                                                self.gamma) * torch.log(1 - preds + eps) * (1 - labels)
    loss = loss_y0 + loss_y1
    return torch.mean(loss)

4.2 多分类focal loss

利用二分类的focal loss即可顺利写出多分类的focal loss如下：

# 多分类focal loss
class MultiFocalLoss(nn.Module):
def __init__(self):
    super(MultiFocalLoss, self).__init__()
    
# 前向传播，注意我们在计算损失函数时，比如在图像分割任务中，我们需要
# 使用one-hot编码将多分类任务转为多个二分类任务进行计算。
def forward(self, preds, labels):
    total_loss = 0
    # 使用了二分类的focal loss
    binary_focal_loss = BinaryFocalLoss()
    logits = F.softmax(preds, dim=1)
    # 这里shape时[B,C,W,H]，通道一就是class num
    nums = labels.shape[1]
    for i in range(nums):
        loss = binary_focal_loss(logits[:, i], labels[:, i])
        total_loss += loss
    return total_loss / nums

4.3 pytorch具体使用示例

def train(args):
    model = TransRes1Unet(1, 10).to(args.device) # 初始化自己模型
    batch_size = args.batch_size # 初始化batch-size
    criterion = my_loss.MultiFocalLoss()  # 初始化这里定义的focal loss
    optimizer = optim.Adam(model.parameters(), lr=0.001)   # 初始化优化器
    # 初始化自己的数据集
    ms_dataset = MSDataset(
        args.train_data_folder, transform=x_transforms, target_transform=y_transforms)
    # 构建dataloader
    dataloaders = DataLoader(
        ms_dataset, batch_size=batch_size, shuffle=True, num_workers=4)
    # 开始训练
    train_model(args, model, criterion, optimizer, dataloaders)

可以看到，在训练代码一开始初始化时使用了focal loss作为损失函数参与模型训练。

for x, y in dataload:
        with torch.autocast(device_type='cuda', dtype=torch.float32):
            step += 1
            inputs = x.to(args.device)
            labels = y.to(args.device)
            # forward
            outputs = model(inputs)
            # 这里便使用了初始化好的loss函数来计算loss
            loss = criterion(outputs, labels)
        scaler.scale(loss).backward()   # 反向传播
        scaler.step(optimizer=optimizer)
        scaler.update()
        # zero the parameter gradients
        optimizer.zero_grad()