Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

最新推荐文章于 2024-08-17 14:10:11 发布

littletomatodonkey

最新推荐文章于 2024-08-17 14:10:11 发布

阅读量428

点赞数

分类专栏：知识蒸馏文章标签：深度学习 pytorch 神经网络知识蒸馏图像分类

本文链接：https://blog.csdn.net/u012526003/article/details/120641921

版权

知识蒸馏专栏收录该内容

12 篇文章 17 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Student Helping Teacher论文，这是一种通过自我知识蒸馏的教师进化方法。利用FPN结构，不同层级特征融合并互相监督，提高模型的鲁棒性和分类效果。实验证明，在CIFAR-100和ImageNet数据集上，该方法优于传统蒸馏技术。

摘要由CSDN通过智能技术生成

前言

许久没写博客，今天趁着假期最后一天，分享下今天看到的一篇关于自蒸馏的论文。

题目：Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation
地址：https://arxiv.org/abs/2110.00329
github：https://github.com/zhengli427/TESKD/

主要思路

之前的蒸馏方法基本都是teacher监督student或者多个student之间互相监督，BYOT论文中，作者将student拆分为多个block，每个block都单独接一个fc，计算celoss，相当于希望每个block都可以学到更加鲁棒的feature（当然，浅层的feature最终的分类效果肯定是相对比较差的）。

在TESKD，也就是这篇博客的主角中，作者借鉴了BYOT以及FPN的结构，使得模型训练以一种自蒸馏的方式呈现出现，不同层级之间的feature也会进行融合并互相监督，融合之后的feature也会接avgpool以及fc，最终也是具有分类能力的，融合的这个过程进一步提升了feature的鲁棒性，也带来了更为优秀的分类结果

结构框图

下面是TESKD自蒸馏算法的结构框图，这其中其实只有一个网络，也就是我们最终用于部署的网络，但是这里为了区分，还是将其称之为教师网络，T1~T4是区分出来的4个block，这对于ResNet等比较标准的网络来说都是比较好实现的（不同的Res sta

了解本专栏

超级会员免费看

littletomatodonkey

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

前言许久没写博客，今天趁着假期最后一天，分享下今天看到的一篇关于自蒸馏的论文。题目：Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation地址：https://arxiv.org/abs/2110.00329github：https://github.com/zhengli427/TESKD/主要思路是融合了abstract...
复制链接

扫一扫