1.提要
- soft target:是通过计算hard target 的加权平均和标签的均匀分布得到的,而这一步骤称为标签平滑。
- 作用:模型过拟合,且在很多最新的模型中都得到了应用,比如图片分类、机器翻译和语音识别
- 论文目的:标签平滑不仅能够提升模型的泛化能力,还能够提升模型的修正能力,并进一步提高模型的集束搜索能力。但在本文的实验中还发现,如果在teacher model 中进行标签平滑,对student model 的知识蒸馏效果会出现下降
2.论文介绍
标签平滑技术在图片分类、语音识别、机器翻译等多个领域的深度学习模型中都取得了很好的效果
文章主要有以下工作:
基于对网络倒数第二层激活情况的线性映射提出了一个全新的可视化方法;
-
阐释了标签平滑对模型修正的影响,并指出网络预测结果的可信度更多取决于模型的准确率;
-
展示了标签平滑对蒸馏的影响,并指出该影响会导致部分信息丢失。
-
标签平滑技术对模型表示的影响与网络结构、数据集和准确率无关。