机器之心发布
机器之心编辑部
人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文中,有 687 篇被接收,接收率为 26.5%。华为诺亚方舟及其合作实验室有多篇论文被 ICLR 2020 接收,本文介绍了其中一篇 Spotlight 文章。
在此论文中,来自上海交通大学和华为诺亚方舟实验室的研究人员提出了一种基于部分通道采样的内存高效的可微网络结构搜索方法方法,能够显著提升可微式搜索的速度和性能。
该方法在 CIFAR10 数据集上,只需要 0.1 个 GPU 天(单卡 1.5 小时)就可以完成一次搜索过程,并且达到 2.57% 的测试错误率;即使在 ImageNet 数据集上直接搜索,该方法也只需要 3.8 个 GPU 天(8 卡 11.5 小时),并且在 ImageNet 的移动设定(600M 运算)中达到 24.2%/7.3% 的 top-1/top-5 测试错误率。难得的是,该方法展示出了在不同参数设定下的搜索稳定性,能够很容易地应用于不同的实际场景。
论文地址 https://arxiv.org/abs/1907.05737代码地址 https://github.com/yuhuixu1993/PC-DARTS1. 摘要最近,可微分的网络结构搜索方法 [1] 取得了很大的进步,极大地降低了搜索开销。然而,可微分的结构搜索方法需要联合训练一个超网络,因此面临两个棘手的难题:巨大的内存消耗,以及超网络到子网络的迁移稳定性。
本文提出一种有效的通道采样方法,即在超网络训练中,只采样部分通道进入核心的多选一运算。通道采样不仅能够缓解超网络的「过拟合」现象,还大大降低了其显存消耗,使得在训练过程中可以通过增加 batch-size 来提升结构搜索的速度和稳定性。
然而,通道采样会导致超网络的选边出现不一致性,从而增加了随机近似给超网络带来的扰动。为了解决这一问题,文章又进一步提出边正则化方法,即利用一组额外的边权参数来减少搜索中的不确定性。经过这两项改进,该方法的搜索速度更快,性能更稳定,精度也更高。
在 CIFAR10 数据集上,利用单块 V100 型 GPU 只需大约 1.5 小时就可以完成整个搜索过程;即使直接在 ImageNet 上搜索,利用 8 块 V100 型 GPU 也只需要 11.5 小时。同时,该方法在网络结构的测试准确率上全面超越现有可微分网络结构搜索方法。2. 引言和基础
网络结构搜索(NAS)是目前 AutoML 的重要方向,吸引了越来越多工业界和学术界研究者的兴趣。
NAS 的主要方法是构建一个大的结构空间,并且开发一个高效的算