知识蒸馏系列(一):三类基础蒸馏算法OpenMMLabOpenMMLab​

本文介绍了知识蒸馏的三种基本类型:响应(response-based)、特征(feature-based)和关系(relation-based)KD算法。响应式KD通过教师模型的logits传递非目标类信息,特征式KD关注教师模型中间层特征的学习,关系式KD则利用模型间的特征关系差异。文章详细探讨了每种方法的关键点,并指出在不同条件下的效果。
摘要由CSDN通过智能技术生成

0 前言

知识蒸馏(Knowledge Distillation,简记为 KD)是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型(或多模型的 ensemble),在不改变学生模型结构的情况下提高其性能。

2015 年 Hinton 团队提出的基于“响应”(response-based)的知识蒸馏技术(一般将该文算法称为 vanilla-KD [1])掀起了相关研究热潮,其后基于“特征”(feature-based)和基于“关系”(relation-based)的 KD 算法被陆续提出。

以上述三类蒸馏算法为基础,学术界不断涌现出致力于解决各特定问题、面向各特定场景的 KD 算法,如:
1)零训练数据情况下的 data-free KD;
2)教师模型也权重更新的 online KD、self KD;
3&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值