【论文阅读】Self-Knowledge Distillation with Progressive Refinement of Targets

Artistzq

已于 2022-07-13 11:26:05 修改

阅读量1.3k

点赞数

文章标签：机器学习深度学习人工智能

于 2022-07-13 11:24:06 首次发布

本文链接：https://blog.csdn.net/Artistzq/article/details/125597639

版权

系列文章目录

【阅读笔记】【知识蒸馏】Self-Knowledge Distillation with Progressive Refinement of Targets

阅读笔记，非全文翻译

问题

KL散度

Abstract

提出了一个简单有效的正则方法：Progressive self-knowledge distillation (PS-KD)，在训练过程中蒸馏自己的知识。
一个模型既是教师，也是学生，即自己教自己。
训练目标是由ground-truth和模型自己之前预测的结果组合而成的
除了提升accuracy准确率，PS-KD还对calibration等指标有帮助
开源代码

Introduction

标签平滑LS的问题：有无更有效的方法来平滑标签，以获得更informative的标签
作者提出PS-KD，从模型自身中蒸馏出知识来软化标签，再训练自己
即使教师不如学生，学生也可以被加强
PS-KD可以被用在任意监督学习上，只要他的方法是使用groundtruth作为硬标签

自知识蒸馏（Self-Knowledge Distillation）

3.1 知识蒸馏作为软目标

3.2 从上一次预测中蒸馏知识

加强泛化能力
使用t-1代的模型作为老师，因为它能提供最有价值的信息
α控制了我们有多相信从老师那里获取的知识
PS-KD（本文方法）中，老师的可信赖度是在变化的，因此alpha要变化，逐渐增加
最终的Loss：

理论支持

略

实现

用上一轮的模型，而不是保存上一轮的预测结果（太大了）

4 实验结果

4.1 CIFAR-100 分类

实验设置

实验Metrics

top1、top5作为准确率
NLL，ECE，AURC（越低越好）作为confidence的度量

实验结果

在这里插入图片描述

4.2 ImageNet 分类任务

尽管t-1代的知识可能过时了（因为t代会使用很多数据再学习一遍），但还是观察到了PS-KD对结果的提升。

实验设置

ResNet深度152，其他略

结果

在这里插入图片描述

PS-KD不管是分类对了还是错了，在看起来相似的类别上，都有更高的预测概率
baseline过度自信，分类错了

4.3 目标检测

Dataset
Baseline：Faster R-CNN，VGG-16换成ResNet-152
Methods：ResNet-152，with LS，PSKD，CSKD，TFKD，PSKD+CutMix
ResNet-152 with PSKD显著提升性能。
PSKD with CutMix效果更好。
以上结果，只是替换了检测算法中的backbone network （VGG16–>Resnet152），PSKD使backbone network更强壮

4.4 机器翻译

翻译实验（【疑问】分类在token级别，而不是input级别）
Baseline：Transformer
PSKD得到了最好的BLEU分数

5 结论

提供了理论证明

Artistzq

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Self-Knowledge Distillation with Progressive Refinement of Targets

Self-Knowledge Distillation with Progressive Refinement of Targets
复制链接

扫一扫

【论文阅读】Self-Knowledge Distillation with Progressive Refinement of Targets

系列文章目录

文章目录

【阅读笔记】【知识蒸馏】Self-Knowledge Distillation with Progressive Refinement of Targets

Abstract

Introduction

相关工作

自知识蒸馏（Self-Knowledge Distillation）

3.1 知识蒸馏作为软目标

3.2 从上一次预测中蒸馏知识

理论支持

实现

4 实验结果

4.1 CIFAR-100 分类

实验设置

实验Metrics

实验结果

4.2 ImageNet 分类任务

实验设置

结果

4.3 目标检测

4.4 机器翻译

5 结论