Distilling Knowledge via Knowledge Review论文和源码阅读笔记

这篇博客介绍了Distilling Knowledge via Knowledge Review论文,探讨了不同于传统逐层映射的学习方式,提出了错层教师指导一层学生的新机制。文章详细解析了论文中的核心思想,包括多级信息引导、残差结构的review机制、ABF和HCl模块,以及它们如何提升模型性能。同时,博主分享了源码实现,但指出在自己的实验中尚未看到显著效果,可能需要更大规模的模型验证。
摘要由CSDN通过智能技术生成

1、paper:https://arxiv.org/pdf/2104.09044.pdf

2、code:https://github.com/dvlab-research/ReviewKD

思谋科技出品的paper,d2的源码,是不是考虑白嫖一波,先分析一下,本文直接描述paper的核心思想,实在不想按照paper的格式逐字翻译,直接贴核心思想就行了:

1、abstract

    papr指出以前的工作teacher和student的模型逐层映射学习,也就是说对应层互相学习,如下图c所示,但是,本文发现,如下图d所示,能够更好地学习,因此paper在图d的基础上, 更进一步的按照公式推导设计出新的模型结构用来将teahcer和student的featuremap进行映射到新的特征空间和学习,发现有效果,我已经将paper的源code移植到我自己的工作里面去了,目前来看,可能是我的模型太小了,与teacher的相应的guided层不对,效果还是

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值