Towards Oracle Knowledge Distillation with NAS

【GiantPandaCV导语】本文介绍的如何更好地集成教师网络,从而更好地提取知识到学生网络,提升学生网络的学习能力和学习效率。从方法上来讲是模型集成+神经网络结构搜索+知识蒸馏的综合问题,在这里使用简单的NAS来降低教师网络与学生网络之间的差距。

背景介绍

解决的问题?

  • 希望从集成的教师网络中提取知识到学生网络,从而提升学习能力和学习效率。

  • model ensemble + NAS + KD

  • Motivation: This is motivated by the fact that knowledge distillation is less effective when the capacity gap (e.g., the number of parameters) between teacher and student is large as discussed in (Mirzadeh et al. 2019).

如何解决?

  • 提出了OD(Oracle Knowledge Distillation)的方法,我们的方法解决了教师和学生之间固有的模型能力问题,旨在通过缩小教师模型的能力差距,使其在蒸馏过程中受益最大化。

  • 使用NAS技术来增强有用的架构和操作,这里搜索的网络适用于蒸馏学生网络。

  • 提出了Oracle KD Loss来实施模型搜索,同时使用集成的教师网络进行蒸馏。

具体如何组织集成教师网络?搜索对象是教师网络?如何动态处理模型capacity?

  • 灵感:动态的组织整个过程的学习,教师网络容量大,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

*pprp*

如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值