论文:https://arxiv.org/pdf/1512.00567.pdf
(一)、为什么有标签平滑正则化(Label Smoothing Regularization, LSR)的方法?
在深度学习样本训练的过程中,我们采用one-hot标签去进行计算交叉熵损失时,只考虑到训练样本中正确的标签位置(one-hot标签为1的位置)的损失,而忽略了错误标签位置(one-hot标签为0的位置)的损失。这样一来,模型可以在训练集上拟合的很好,但由于其他错误标签位置的损失没有计算,导致预测的时候,预测错误的概率增大。为了解决这一问题,标签平滑的正则化方法便应运而生。
(二)、标签平滑是如何实现的?
(1). 传统的softmax公式如下: p i = e z i ∑ i = 1 n e z i (2.1) {p_{i}=\frac{e^{z_i}}{\sum_{i=1}^n{e^{z_i}}}\tag{2.1}} pi=∑i=1neziezi(2.1)其中 p i p_i pi为当前样本属于类别 i i i的概率, z i z_i zi指的是当前样本的对应类别 i i i的 l o g i t logit logit, n n n为样本类别总数,则我们可以得到交叉熵(cross entropy)损失: l o s s = − 1 m ∑ k = 1 m ∑ i = 1 n y i l o g p i (2.2) {loss=-\frac{1}{m}\sum_{k=1}^m\sum_{i=1}^n{y_ilogp_i}\tag{2.2}} loss=−m1k=1∑m