标签平滑采用如下思路解决这个问题:在训练时即假设标签可能存在错误,避免“过分”相信训练样本的标签,也就避免了过拟合。具体实例如下:
1 假设某个三分类问题,最终的预测输出为(1.,5.4.),经过Softmax函数之后,就可以得到:
2 假设该样本的初始label为(0,1,0),则对应的损失函数,使用交叉熵计算为:
3 可以发现,其实模型的学习目标是 让 0.721 无限接近类标 1,但是其实一般情况下,预测的分类准确率没必要非要是1,可以是 0.99等,那么我们就考虑从初始的label入手,进行平滑操作,让其变为(0.005,0.99,0.005) 这样子的形式,一定程度上,可以减小模型的过拟合,更符合我们训练的过程。
Pytorch 代码
def one_hot(label,num_class,smooth_factor):
"""
将一维列表转换为独热编码
"""
label = label.resize_(label.size()[0], 1)
m_zeros = torch.zeros(label.size()[0], num_class)
# 从 value 中取值,然后根据 dim 和 index 给相应位置赋值
onehot = m_zeros.scatter_(1, label, 1-smooth_factor) # (dim,index,value)
return onehot # Tensor -> Numpy
if __name__=="__main__":
tensor=torch.from_numpy(np.array([1,3,4]))
print(tensor.size())
one_hot_val=one_hot(tensor,5,0.01)
one_hot_val+=0.01/5
print(one_hot_val)