Towards Oracle Knowledge Distillation with NAS

最新推荐文章于 2022-01-01 16:09:29 发布

*pprp*

最新推荐文章于 2022-01-01 16:09:29 发布

阅读量1.4k

收藏 2

点赞数 1

分类专栏：神经网络搜索论文阅读 AutoML 文章标签：知识蒸馏神经网络结构搜索

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/dd_pp_jj/article/details/121268840

版权

【GiantPandaCV导语】本文介绍的如何更好地集成教师网络，从而更好地提取知识到学生网络，提升学生网络的学习能力和学习效率。从方法上来讲是模型集成+神经网络结构搜索+知识蒸馏的综合问题，在这里使用简单的NAS来降低教师网络与学生网络之间的差距。

背景介绍

解决的问题？

希望从集成的教师网络中提取知识到学生网络，从而提升学习能力和学习效率。
model ensemble + NAS + KD
Motivation: This is motivated by the fact that knowledge distillation is less effective when the capacity gap (e.g., the number of parameters) between teacher and student is large as discussed in (Mirzadeh et al. 2019).

如何解决？

提出了OD（Oracle Knowledge Distillation）的方法，我们的方法解决了教师和学生之间固有的模型能力问题，旨在通过缩小教师模型的能力差距，使其在蒸馏过程中受益最大化。
使用NAS技术来增强有用的架构和操作，这里搜索的网络适用于蒸馏学生网络。
提出了Oracle KD Loss来实施模型搜索，同时使用集成的教师网络进行蒸馏。

具体如何组织集成教师网络？搜索对象是教师网络？如何动态处理模型capacity?

灵感：动态的组织整个过程的学习，教师网络容量大，

最低0.47元/天解锁文章

*pprp*

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

*pprp* 如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

打赏作者

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值