论文阅读-基于EA的NAS

本文探讨了使用进化算法进行神经网络架构搜索(NAS),通过大规模计算实现了与手工设计模型相媲美的精度。研究展示了一种简单的一次性技术,能够从简单初始条件进化出在CIFAR-10和CIFAR-100数据集上具有竞争力的模型。通过调整突变操作和扩大计算规模,成功避开了进化过程中的局部最优,证明了自动发现方法的可能性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Large-Scale Evolution of Image Classifiers,这是一篇将进化算法应用于NAS的论文,我们一起看看吧~

摘要
神经网络已被证明能有效地解决困难的问题,但设计它们的体系结构是很有挑战性的,即使仅仅对于图像分类问题也是如此。我们的目标是尽量减少人类的参与,所以我们采用进化算法来自动发现这样的网络。尽管有重要的计算要求,我们表明,现在有可能发展模型的精度在去年公布的范围内。具体来说,我们采用了前所未有的简单进化技术来发现CIFAR-10和CIFAR-100数据集的模型,从简单的初始条件开始,分别达到了94.6%(集成95.6%)和77.0%的精度。为了做到这一点,我们使用新颖直观的变异操作来导航大的搜索空间; 我们强调一旦进化开始,就不需要人类参与,并且输出是一个经过充分训练的模型。在这项工作中,我们特别强调结果的可重复性、结果的可变性和计算要求。

1. 介绍(简单介绍了一下,当前的进展)
在有大量训练数据的情况下,神经网络可以成功地执行困难的任务(He et al.,2015;Weyand et al.,2016;Silver et al.,2016;Wu et al.,2016)。然而,发现神经网络结构仍然是一项艰巨的任务。即使在图像分类的具体问题中,通过数百名研究人员多年的集中研究也达到了最新的水平(Krizhevsky et al.(2012);Simonyan&Zisserman(2014);Szegedy et al.(2015);He et al.(2016);Huang et al.(2016a)等)。

因此,近年来,自动发现这些架构的技术越来越流行也就不足为奇了(Bergstra&Bengio,2012;Snoek et al.,2012;Han et al.,2015;Baker et al.,2016;Zoph&Le,2016)。最早的此类“神经发现”方法之一是神经进化(Miller et al.,1989;Stanley&Miikkulainen,2002;Stanley,2007;Bayer et al.,2009;Stanley et al.,2009;Breuel&Shafait,2010;Pugh&Stanley,2013;Kim&Rigazio,2015;Zaremba,2015;Fernando et al.,2016;Morse&Stanley,2016)。尽管取得了令人鼓舞的结果,深度学习社区普遍认为进化算法无法匹配手工设计模型的精度(Verbancsics&Harguess,2013;Baker et al.,2016;Zoph&Le,2016)。在这篇文章中,我们证明了在今天,只要有足够的计算能力,发展这样的竞争模型是可能的。

据我们所知,我们使用了稍加修改的已知进化算法,并将计算规模扩大到前所未有的水平。 这一点,加上一组新颖直观的变异造作,使我们能够在CIFAR-10数据集上达到有竞争力的精确度。之所以选择这个数据集,是因为它需要大型网络才能达到高精度,因此带来了计算上的挑战。我们还在CIFAR-100数据集上向泛化和进化网络迈出了一小步。在从CIFAR-10到CIFAR-100的转换过程中,我们没有修改算法的任何方面或参数。我们在CIFAR-10上的典型神经进化结果的测试准确率为μ=94.1%,标准差σ=0.4% @9×1019次,我们的顶级模型(通过验证准确率)的测试准确率为94.6% @4×1020次。 在不增加训练成本的情况下,对每个群体的前2个模型进行验证,测试准确率达到95.6%。在CIFAR-100上,我们的单次实验得到了77.0% @2×1020次的测试精度。据我们所知,这些都是从琐碎的初始条件开始的自动发现方法在这些数据集上获得的最准确的结果。

表1。与单一模型手工设计架构的比较。“C10+”和“C100+”列分别表示数据增强CIFAR-10和CIFAR-100数据集的测试精度。“可到达的”?“列表示给定的手工设计模型是否位于我们的搜索空间内。输入“–”表示未报告任何值。这表明(2016b)报告的结果,而不是原作者。这张表的大部分内容是基于Huang等人(2016a)提出的。
在这里插入图片描述

在整个研究过程中,我们特别强调了算法的简单性。特别是,

  • 它是一种“one-shot”技术,产生一个完全训练的神经网络,不需要后处理
  • 它也有一些有效的元参数(即参数没有优化的算法)。从没有卷积的性能较差的模型开始,该算法必须进化出复杂的卷积神经网络,同时导航到一个相当不受限制的搜索空间:没有固定的深度、任意的跳转连接和对其值几乎没有限制的数值参数。

我们也密切关注结果报告。也就是说,

  • 除了最高值之外,我们还展示了我们结果的可变性,我们考虑了研究人员的自由度(Simmons等人,2011),我们研究了对元参数的依赖性

并披露了达到主要结果所需的计算量。我们希望我们对计算代价的明确讨论能够激发更多关于有效模型搜索和训练的研究。通过计算投资标

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值