ENAS论文详解

ENAS论文的全称是EfficientNet Neural Architecture Search via Parameter Sharing,是由谷歌、CMU和斯坦福大学联合推出的论文。从早期的两篇NAS论文(NASNASNet)可以看出,在搜索架构的过程中,需要动用500个GPU,这对于普通人来说根本是可望而不可及的研究领域。ENAS的论文着重解决计算资源问题,将NAS的计算资源和搜索时间大幅降低,让一般的研究人员也能探索神经网络架构搜索的领域。

ENAS的基本设计思想:

  1. 采用NAS论文controller RNN和强化学习的思想
  2. 采用NASNet的Cell和Block的设计
  3. 将搜索的模型参数共享,所有子网络共享同一份模型参数

在前两点上,借鉴了NAS论文方法NASNet论文方法,都是采用controller RNN去预测Cell里面Block的input和operation等,Cell的种类也和NASNet一样,分为Normal和Reduction两种。

论文最大的改进在于第3点。之前的强化学习方法每次选择子网络后,都是重新开始训练一遍子网络模型,再从验证集上获得模型的精度。而ENAS的Cell模型空间参数只有一份,每次选择子网络后,都是在已训练的模型参数上继续训练。

比如说,Cell的第一个Block第一次选择的是 3 × 3 3\times3 3×3的卷积和 5 × 5 5\times5 5×5的卷积,在第一次训练完后,会反馈一次验证集的精度给controller RNN,如果第二次选择到了 3 × 3 3\times3 3×3的depthwise卷积和 5 × 5 5\times5 5×5卷积,那么 3 × 3 3\times3 3×3的depthwise卷积从初始化开始训练,而 5 × 5 5\times5 5×5的卷积则是在上一次训练后保存的基础上继续训练,就不用从初始化开始重新训练。

这种方法可以节省大量的子网络训练时间,因为很多参数重新训练的过程都是相似而冗余的,大量的计算时间浪费在同样的训练过程。ENAS通过参数共享的方式,让之前的子网络训练得到充分利用,在节省分布式计算资源的同时,也节省了大量的搜索时间。

在视觉分类的实验上,ENAS以Cifar-10为搜索数据集,在同时搜索整个网络架构的macro搜索空间(NAS论文方法)上,ENAS只使用了1个GPU(GTX1080Ti),用时7个小时;在只搜索Cell的micro搜索空间(NASNet论文方法)上,ENAS同样也只用了1个GPU,搜索了11.5个小时。搜索出来的网络训练性能如下图所示。
在这里插入图片描述
图1. ENAS在Cifar-10上的实验结果以及与其他方法的对比

从图中可以看出,ENAS在macro搜索空间上的分类误差(3.87)比NAS方法(3.65)略差一些;在micro搜索空间上,分类误差(2.89)相比NASNet方法(2.65)也有微弱的劣势。ENAS的最大优势在于它的计算资源和搜索时间,在牺牲微小精度的代价上,大幅减少了训练所用的GPU个数和搜索时长。

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值