Label Smoothing（标签平滑）—— 分类问题中错误标注的一种解决方法

最新推荐文章于 2023-10-20 18:33:33 发布

青竹aaa

最新推荐文章于 2023-10-20 18:33:33 发布

阅读量1.2k

点赞数 2

分类专栏：深度学习

原文链接：https://blog.csdn.net/qq_36560894/article/details/118424356

版权

深度学习专栏收录该内容

38 篇文章 8 订阅

订阅专栏

Label Smoothing也称之为标签平滑，其实是一种防止过拟合的正则化方法。传统的分类loss采用softmax loss，先对全连接层的输出计算softmax，视为各类别的置信度概率，再利用交叉熵计算损失。

在这个过程中尽可能使得各样本在正确类别上的输出概率为1，这要使得对应的z值为+∞，这拉大了其与其他类别间的距离。

现在假设一个多分类任务标签是[1,0,0]，如果它本身的label的出现了问题，这对模型的伤害是非常大的，因为在训练的过程中强行学习一个非本类的样本，并且让其概率非常高，这会影响对后验概率的估计。并且有时候类与类之间的并不是毫无关联，如果鼓励输出的概率间相差过大，这会导致一定程度上的过拟合。

因此Label Smoothing的想法是让目标不再是one-hot标签，而是变为如下形式：

其中ε为一个较小的常数，这使得softmax损失中的概率优目标不再为1和0，同时z值的最优解也不再是正无穷大，而是一个具体的数值。这在一定程度上避免了过拟合，也缓解了错误标签带来的影响。

实现：

class CELoss(nn.Module):
    ''' Cross Entropy Loss with label smoothing '''
    def __init__(self, label_smooth=None, class_num=137):
        super().__init__()
        self.label_smooth = label_smooth
        self.class_num = class_num

    def forward(self, pred, target):
        ''' 
        Args:
            pred: prediction of model output    [N, M]
            target: ground truth of sampler [N]
        '''
        eps = 1e-12
        
        if self.label_smooth is not None:
            # cross entropy loss with label smoothing
            logprobs = F.log_softmax(pred, dim=1)	# softmax + log
            target = F.one_hot(target, self.class_num)	# 转换成one-hot
            
            # label smoothing
            # 实现 1
            # target = (1.0-self.label_smooth)*target + self.label_smooth/self.class_num 	
            # 实现 2
            # implement 2
            target = torch.clamp(target.float(), min=self.label_smooth/(self.class_num-1), max=1.0-self.label_smooth)
            loss = -1*torch.sum(target*logprobs, 1)
        
        else:
            # standard cross entropy loss
            loss = -1.*pred.gather(1, target.unsqueeze(-1)) + torch.log(torch.exp(pred+eps).sum(dim=1))

        return loss.mean()

标签平滑结果展示：

 loss1 = nn.CrossEntropyLoss()
    loss2 = CELoss(label_smooth=0.05, class_num=3)

    x = torch.tensor([[1, 8, 1], [1, 1, 8]], dtype=torch.float)
    y = torch.tensor([1, 2])

    print(loss1(x, y), loss2(x, y))
    # tensor(0.0018) tensor(0.2352)

分析：拉大模型输出数值间的差距后，原始的交叉熵会变小，而增加了标签平滑的反而变大。这也反映了标签平滑后，并不是概率越接近于1越好，而是接近某个小于1的值，这使得模型的输出不再是越高(+∞)越好。

原文链接：https://blog.csdn.net/qq_36560894/article/details/118424356

青竹aaa

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Label Smoothing（标签平滑）—— 分类问题中错误标注的一种解决方法

Label Smoothing也称之为标签平滑，其实是一种防止过拟合的正则化方法。传统的分类loss采用softmax loss，先对全连接层的输出计算softmax，视为各类别的置信度概率，再利用交叉熵计算损失。在这个过程中尽可能使得各样本在正确类别上的输出概率为1，这要使得对应的z值为+∞，这拉大了其与其他类别间的距离。现在假设一个多分类任务标签是[1,0,0]，如果它本身的label的出现了问题，这对模型的伤害是非常大的，因为在训练的过程中强行学习一个非本类的样本，并且让其概率非常高，这会影响
复制链接

扫一扫