【阿里云天池】实战:街景符号识别(baseline优化方式之标签平滑)

一、回顾softmax和交叉熵
softmax:
在这里插入图片描述
交叉熵:
在这里插入图片描述
假设我们是二分类问题,且输入标签为[0,0,0,1,0]。经过训练后得到概率[0.1,0.1,0.1,0.36,0.34]。
这样根据损失熵公式可以算出损失:
在这里插入图片描述
这种传统计算交叉熵损失只考虑了正确标签位置的损失,而没有考虑错误标签的损失。

二、标签平滑
假设标签的平滑因子取0.1。
在这里插入图片描述
最后算出损失:
在这里插入图片描述
这里可以看出处理后的y是由两部分构成,前半部分是对原分布乘一个权重, ϵ 是一个超参,需要自己设定,取值在0到1范围内。后半部分u是一个均匀分布,k表示模型的类别数。

由以上公式可以看出,这种方式使label有 ϵ概率来自于均匀分布, 1−ϵ 概率来自于原分布。这就相当于在原label上增加噪声,让模型的预测值不要过度集中于概率较高的类别,把一些概率放在概率较低的类别。

也就是多考虑了错误类别对损失的影响。换言之,带有标签平滑的损失要想下降到传统交叉熵损失的程度,就要学习的更好,迫使模型往正确分类的方向走。

三、代码实现

class LabelSmoothEntropy(nn.Module):
    def __init__(self, smooth=0.1, class_weights=None, size_average='mean'):
        super(LabelSmoothEntropy, self).__init__()
        self.size_average = size_average
        self.smooth = smooth

        self.class_weights = class_weights

    def forward(self, preds, targets):

        lb_pos, lb_neg = 1 - self.smooth, self.smooth / (preds.shape[0] - 1)

        smoothed_lb = torch.zeros_like(preds).fill_(lb_neg).scatter_(1, targets[:, None], lb_pos)

        log_soft = F.log_softmax(preds, dim=1)

        if self.class_weights is not None:
            loss = -log_soft * smoothed_lb * self.class_weights[None, :]

        else:
            loss = -log_soft * smoothed_lb

        loss = loss.sum(1)
        if self.size_average == 'mean':
            return loss.mean()

        elif self.size_average == 'sum':
            return loss.sum()
        else:
            raise NotImplementedError
criterion = LabelSmoothEntropy().to(device)

四、测试的结果

我们可以看到损失明显比以前的损失大了。
在这里插入图片描述
最后的正确率提升到了0.69,为什么不给我上0.7!!!! ,之后的提升还可以是对训练率和其他的一些超参数进行调整测试,估计还能提升一点结果。想要正确率提高到0.75以上还是要考虑更换网络或者模型融合,目前的融合选择倾向于Resnet18和mobilenet网络的融合,或者直接更换成yolo5。后面比较复杂,优先学习前面的网络融合或许效果更好。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值