【阿里云天池】实战：街景符号识别（baseline优化方式之标签平滑）

最新推荐文章于 2023-12-28 09:40:54 发布

daweq

最新推荐文章于 2023-12-28 09:40:54 发布

阅读量200

点赞数

文章标签： python 概率论

本文链接：https://blog.csdn.net/daweq/article/details/127658201

版权

一、回顾softmax和交叉熵
softmax:
在这里插入图片描述
交叉熵：

假设我们是二分类问题，且输入标签为[0,0,0,1,0]。经过训练后得到概率[0.1,0.1,0.1,0.36,0.34]。
这样根据损失熵公式可以算出损失：

这种传统计算交叉熵损失只考虑了正确标签位置的损失，而没有考虑错误标签的损失。

二、标签平滑
假设标签的平滑因子取0.1。
在这里插入图片描述
最后算出损失：

这里可以看出处理后的y是由两部分构成，前半部分是对原分布乘一个权重， ϵ 是一个超参，需要自己设定，取值在0到1范围内。后半部分u是一个均匀分布，k表示模型的类别数。

由以上公式可以看出，这种方式使label有 ϵ概率来自于均匀分布， 1−ϵ 概率来自于原分布。这就相当于在原label上增加噪声，让模型的预测值不要过度集中于概率较高的类别，把一些概率放在概率较低的类别。

也就是多考虑了错误类别对损失的影响。换言之，带有标签平滑的损失要想下降到传统交叉熵损失的程度，就要学习的更好，迫使模型往正确分类的方向走。

三、代码实现

class LabelSmoothEntropy(nn.Module):
    def __init__(self, smooth=0.1, class_weights=None, size_average='mean'):
        super(LabelSmoothEntropy, self).__init__()
        self.size_average = size_average
        self.smooth = smooth

        self.class_weights = class_weights

    def forward(self, preds, targets):

        lb_pos, lb_neg = 1 - self.smooth, self.smooth / (preds.shape[0] - 1)

        smoothed_lb = torch.zeros_like(preds).fill_(lb_neg).scatter_(1, targets[:, None], lb_pos)

        log_soft = F.log_softmax(preds, dim=1)

        if self.class_weights is not None:
            loss = -log_soft * smoothed_lb * self.class_weights[None, :]

        else:
            loss = -log_soft * smoothed_lb

        loss = loss.sum(1)
        if self.size_average == 'mean':
            return loss.mean()

        elif self.size_average == 'sum':
            return loss.sum()
        else:
            raise NotImplementedError

criterion = LabelSmoothEntropy().to(device)

四、测试的结果

我们可以看到损失明显比以前的损失大了。
在这里插入图片描述
最后的正确率提升到了0.69，~~为什么不给我上0.7！！！！~~ ，之后的提升还可以是对训练率和其他的一些超参数进行调整测试，估计还能提升一点结果。想要正确率提高到0.75以上还是要考虑更换网络或者模型融合，目前的融合选择倾向于Resnet18和mobilenet网络的融合，或者直接更换成yolo5。后面比较复杂，优先学习前面的网络融合或许效果更好。
在这里插入图片描述