AutoML论文笔记(十)Towards Oracle Knowledge Distillation with Neural Architecture Search:基于知识蒸馏的神经网络搜索

文章题目:Towards Oracle Knowledge Distillation with Neural Architecture Search
链接:link https://arxiv.org/pdf/1911.13019
会议期刊:AAAI 2020

论文阅读笔记,帮助记忆的同时,方便和大家讨论。因能力有限,可能有些地方理解的不到位,如有谬误,请及时指正。

论文内容

本文提出一种新的知识蒸馏的框架:集成老师模型来学习高效的学生模型,在蒸馏的过程中减少老师与学生的容差,来最大限度的传授知识。NAS搜索出的结构,在固定网络容积的同时,并没有降低模型性能。
 传统的知识蒸馏算法,师生模型的大小之间都有鸿沟。学生网络的大小往往是蒸馏算法的瓶颈,因此本文增大了学生网络的大小。同时,单纯的对教师网络的输出做平均并不可取。下图是本文的核心:

 主要做到以下创新点:

  1. 目前集成的KD是低级的平均或者多数投票,本文利用Oracle KD(翻译过来是神之蒸馏?)为复杂的只是转换,创造了一个直观而又高效的loss function。
  2. NAS加成,师生大小的鸿沟通过改变学生结构来解决,和loss结合,使得学生有超越老师的可能。
  3. OD不是从0开始训练,而是从一个学生网络,逐步增加大小到最优。
     理论上任何比学生强的网络都能作为老师,本文用学生的集成作为老师有两方面的考虑:模型集成是一个前向的提升SOTA模型的方法;预测操作可以在集成中获得,这样允许学生学到更好的特征。
     loss函数如下,老师判断OK的时候跟着老师学,老师判断失误了,跟着label学:
     
     利用LSTM作为controller,在学生末尾加一些操作,优化过程中叠加候选模型,采用KDAS算法更新结构。在约束条件下,选出的最好结构在用OD loss从头开始训练。
     
     该算法在Cifar100和TinyImageNet数据集上都表现优异,并且作者也做了消融学习来证明算法的可行性。
     在这里插入图片描述
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值