【2020】自我蒸馏分类改进Regularizing Class-wise Predictions via Self-knowledge Distillation

【2020】Regularizing Class-wise Predictions via Self-knowledge Distillation

在这里插入图片描述
   问题: 具有数百万个参数的深度神经网络可能由于过拟合而泛化能力较差。本文通过自我蒸馏增加正则化(惩罚项),从而减轻过拟合。

   具体: 取同一分类的不同样本进行分类预测,要求产生相似的错误分类,而传统分类未考虑预测分布的一致性。

   结果: 防止过拟合+减少内部阶级差异。

1 模型:

  传统正则化: 基于图像输出的正则化。
  本文正则化: 基于类的输出正则化,即选取相同类别的不同图像。

  传统知识蒸馏: 利用相同样本经过两个网络(老师和学生)的输出。
  本文知识蒸馏: 利用相同类的不同样本经过相同网络的输出。

下图为本文整体模型概述:

在这里插入图片描述

  添加相同类不同样本输出的误差Lcls
在这里插入图片描述
在这里插入图片描述
最终算法如下:
在这里插入图片描述

2 结果

  如图,我们的方法CS-KD相比较交叉熵误差cross-entropy,对同样错误分类的样本,cross-entropy预测真实标签woman和otter的概率都很小,且错误的预测概率均相对较大。而CS-KD虽输出错误分类,但预测真实标签也不小。
在这里插入图片描述
在这里插入图片描述
  figure2统计了所有错误分类,纵坐标是错误分类样本数量,横坐标是输出概率取对数,越接近0,对应概率越大。(a)图是对应输出top1的标签概率,(b)图是对应错误分类样本的真实标签的输出概率。可见,我们的方法虽输出分类错,但概率值相对不大,且真实概率相对cross-entropy较大。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值