一、回顾softmax和交叉熵
softmax:
交叉熵:
假设我们是二分类问题,且输入标签为[0,0,0,1,0]。经过训练后得到概率[0.1,0.1,0.1,0.36,0.34]。
这样根据损失熵公式可以算出损失:
这种传统计算交叉熵损失只考虑了正确标签位置的损失,而没有考虑错误标签的损失。
二、标签平滑
假设标签的平滑因子取0.1。
最后算出损失:
这里可以看出处理后的y是由两部分构成,前半部分是对原分布乘一个权重, ϵ 是一个超参,需要自己设定,取值在0到1范围内。后半部分u是一个均匀分布,k表示模型的类别数。
由以上公式可以看出,这种方式使label有 ϵ概率来自于均匀分布, 1−ϵ 概率来自于原分布。这就相当于在原label上增加噪声,让模型的预测值不要过度集中于概率较高的类别,把一些概率放在概率较低的类别。
也就是多考虑了错误类别对损失的影响。换言之,带有标签平滑的损失要想下降到传统交叉熵损失的程度,就要学习的更好,迫使模型往正确分类的方向走。
三、代码实现
class LabelSmoothEntropy(nn.Module):
def __init__(self, smooth=0.1, class_weights=None, size_average='mean'):
super(LabelSmoothEntropy, self).__init__()
self.size_average = size_average
self.smooth = smooth
self.class_weights = class_weights
def forward(self, preds, targets):
lb_pos, lb_neg = 1 - self.smooth, self.smooth / (preds.shape[0] - 1)
smoothed_lb = torch.zeros_like(preds).fill_(lb_neg).scatter_(1, targets[:, None], lb_pos)
log_soft = F.log_softmax(preds, dim=1)
if self.class_weights is not None:
loss = -log_soft * smoothed_lb * self.class_weights[None, :]
else:
loss = -log_soft * smoothed_lb
loss = loss.sum(1)
if self.size_average == 'mean':
return loss.mean()
elif self.size_average == 'sum':
return loss.sum()
else:
raise NotImplementedError
criterion = LabelSmoothEntropy().to(device)
四、测试的结果
我们可以看到损失明显比以前的损失大了。
最后的正确率提升到了0.69,为什么不给我上0.7!!!! ,之后的提升还可以是对训练率和其他的一些超参数进行调整测试,估计还能提升一点结果。想要正确率提高到0.75以上还是要考虑更换网络或者模型融合,目前的融合选择倾向于Resnet18和mobilenet网络的融合,或者直接更换成yolo5。后面比较复杂,优先学习前面的网络融合或许效果更好。