- Label Smoothing
- Warm Up
一、Label Smoothing 效果好的解释:
1)对于分类softmax loss交叉熵,对于one hot编码标签的其他数据维,加入均匀分布的噪声。能有效提升模型泛化能力,降低过拟合。
可能导致过拟合。0或1的标记方式导致模型概率估计值为1,或接近于1,这样的编码方式不够soft,容易导致过拟合。为什么?用于训练模型的training set通常是很有限的,往往不能覆盖所有的情况,特别是在训练样本比较少的情况下更为明显。以神经机器翻译(NMT)为例:假设预测句子“今天下午我们去..”中,“去”后面的一个词。假设只有“去钓鱼”和“去逛街”两种搭配,且真实的句子是“今天下午我们去钓鱼”。training set中,“去钓鱼”这个搭配出现10次,“去逛街”搭配出现40次。“去钓鱼”出现概率真实概率是20%,“去逛街”出现的真实概率是80%。因为采用0或1的表示方式,随着training次数增加,模型逐渐倾向于“去逛街”这个搭配,使这个搭配预测概率为100%或接近于100%,“去钓鱼”这个搭配逐渐被忽略。
2)原因是什么?one hot会使得模型过于自信于真实的one hot标签,容易过拟合。
模型become too confident about its predictions。情况与过拟合比较类似,模型对它的预测过于confident,导致模型对观测变量x的预测严重偏离真实的情况,比如上述例子中,把“去逛街”搭配出现的概率从80%放大到100%,这种放大是不合理的。
二、Mixup效果好的解释:
mixup相当于让模型在不同类别之间学会一种线性的过度,这样会导致模型在预测过程中不容易在某些类别之间发送震荡,这一点从文章实验的权重稳定性可以看得出。确实可以按照上述定性解释这样理解;不过这实际上给我们提供了一种思路,就是说在分类任务中的数据增广的实质有可能是打通孤立数据样本之间的联系,这种联系有可能是一种线性关系,也有可能是另一种非线性关系,模型所要做的是学会如何在已有这些联系的基础上的判别能力,这样可以保证模型不发生过拟合,也就是文章中提到的震荡。
三、Warmup效果好的解释:
开车进入一个新城市的时候,一开始总是要小心翼翼驾驶的,过一会了大致了解了周边环境了才能提速。