A Gift from Knowledge Distillation: Fast Optimization,Network Minimization and Transfer Learning论文初读

本文提出了将知识蒸馏视为解决问题的流,通过不同层特征的内积计算,实现学生网络的快速优化和性能超越教师网络。这种方法不仅适用于迁移学习,还能显著提升学生网络的性能,且实验表明,通过FSP矩阵损失,可以提高学习效率并降低不同网络之间的相关性,从而提升集成模型的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

摘要

引言

相关工作

  知识迁移

  快速优化

  迁移学习

方法

  提出观点

  数学表达式

  FSP Matrix的损失

  学习步骤

实验

  快速优化

  性能的提升

  迁移学习

结论


摘要

提出了将蒸馏的知识看作成一种解决问题的流,它是在不同层之间的feature通过内积计算得到的

这个方法有三个好处:

  student网络可以学的更快

  student网络可以超过teacher网路的性能

  可以适用于迁移学习(teacher和student属于不同的任务)

引言

  • 之前的工作

KD

Fitnets(hint)

  • 本文的创新点

将知识看作如何解决问题的流,所以将要蒸馏知识看作解决问题的流

流被定义为在两个不同层上的features上的关系

Gram matrix是通过计算特征间的内积得到的,可以表示输入图像的纹理信息,本文也是通过计算Gram matrix来得到流,不同点在于原本的Gram matrix是计算一个层的特征间的内积,而本文是结算不同层特征间的内积

Figure1是计算FSP的概念图,FSP就是flow of solution procedure

  • 本文的贡献

提出了一种好的知识蒸馏的方法

这种方法对快速优化有帮助

这种方法可以显著提升student网络的性能

这种方法适用于迁移学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值