随机地址生成器_论文解读:何恺明团队《随机生成网络 RandWire》

何恺明团队的论文《随机生成网络 RandWire》展示了随机生成网络在图像识别上的优秀性能,接近甚至超过人工设计的网络如ResNet。研究发现,随机生成的网络在减少人工干预的同时提供了更大的探索空间,为网络设计带来新突破。实验结果表明,不同随机生成器产生的网络在ImageNet上表现出竞争力的准确率,且某些生成器的性能超越了手工设计的网络。
摘要由CSDN通过智能技术生成

9219aec67dd34dc5c3e644949864b3a5.png

深度学习领域的Pop-Star何恺明大神又又出新论文了:《Exploring Randomly Wired Neural Networks for Image Recognition》。

论文原文请见
Exploring Randomly Wired Neural Networks for Image Recognition​arxiv.org

这是一篇关于随即生成网络性能分析和结果展示的论文,发表在arXiv上,目前是version 2。

论文的意义

众所周知,何恺明团队的论文历来受到业界和学术界极大的关注,一方面是他在深度学习领域个人的影响力,另外一方面是因为其所在的Facebook AI Research(FAIR)的强大背景。对,前不久获得图灵奖的Yann LeCun正是FAIR的Head。

而对于这篇论文,它引起广泛讨论的核心原因还是,它的结果显示随机生成网络所取得的性能已经可以和人工精心打造的网络结果(例如ResNet、DenseNet等)相媲美。

在计算机领域(包括AI),一个非常核心的理念是减少人工的干预,尽量由程序/算法自行完成端到端的工作,因为通常人工的干预会带来额外的时间成本。而对于深度学习此前的阶段,从网络结构设计、数据集处理、超参数调节等环节,均非常的依赖人工的参与。这也一定程度上限制和减缓了深度学习口技术的应用和发展。如果随机生成网络可以取得不错的性能表现,意味着未来的网络设计这一环节的人工干预可以去去掉。配合AutoML超参数调节等技术,是否未来端到端的机器学习任务均可以由程序来完成了?也许这个目标不远了。

此外,随机生成网络在去掉人工调节的基础上,提供了更大的探索空间,为网络获得比人工设计网络更好的性能提供了可能性。

总结一下,此论文的意义和特点: 1. 实验证明了随机生成网络的性能优秀; 1. 随机生成网络减少人工干预,提供更大的探索空间,提供潜在更好性能的可能性。

原文摘要

原文的摘要部分:

用于图像识别的神经网络经过大量的人工设计,已经从简单的链状模型发展到具有多个连接路径的结构。ResNets 和 DenseNets 的成功在很大程度上归功于它们创新的网络连接结构。
目前,神经网络结构搜索 (NAS) 的研究正在探索连接 (wiring) 与操作类型 (operation types) 的联合优化,然而,由于可能的连接空间受到限制。尽管诸多研究采用了神经网络结构搜索,优化依然是由人工设计网络所驱动的。
这篇论文中,作者通过对随机连接神经网络节点的连接方式的研究,探索了比此前神经架构搜索更为广泛的连接模式。
首先,作者定义了一个随机网络生成器(stochastic network generator) 的概念,它封装整个网络的生成过程。这一封装提供了 NAS 和随机连接网络的统一视图。
然后,作者使用三个经典随机图模型为网络生成随机连接图。
结果令人惊讶:这些随机生成的网络在 ImageNet 图像数据集上的测试结果有着非常具有竞争力的准确率。结果表明,专注于设计更好的网络生成器或许可以带来更大的技术突破。

作者表示,注于设计更好的网络生成器的研究可以通过探索更少约束的搜索空间,为新设计提供更多空间,从而带来新的突破。

关于下面的研究概述和结果分析,内容参考了https://zhuanlan.zhihu.com/p/61707045。

研究概述

计算机视觉领域的最新进展是由使用链状连接的模型向更精细的连接模式 (如 ResNet 和 DenseNet) 的转变所驱动的,这些连接模式之所以有效,在很大程度上是因为它们的连接方式。

在这一趋势的推进中,神经结构搜索 (Neural Architecture Search, NAS) 已经成为联合搜索连接模式和执行操作方式的一个有前景的方向。NAS 方法专注于搜索,同时隐式地依赖于一个重要但常常被忽视的组件 —— 网络生成器 (Network Generator)。

NAS 网络生成器定义了一系列可能的连接模式,并根据可学习的概率分布对网络进行采样。然而,就像 ResNet 和 DenseNet 中的连接模式一样,NAS 网络生成器是手工设计的,允许的连接模式的空间被限制在所有可能的图的一个小的子集中。从这个角度来看,如果我们放开这种约束,并设计新的网络生成器,会发生什么 ?

ac9fccaa30be515c5a30cec7a505eb7e.png

作者使用了三个经典的复杂网络的随机图生成模型:Erdos-R˝enyi (ER) ,Barabasi-Albert (BA),以及 Watts-Strogatz (WS) 模型。如上图所示,随机连接网络的三个实例在 ImageNet 基准测试中分别达到 79.1%、79.1% 和 79.0% 的精度,超过了 ResNet-50 的 77.1%。为了定义完整的网络,作者将一个随机图转换成一个有向无环图 (DAG),并应用从节点到其函数角色 (例如,到相同类型的卷积) 的一个简单映射。

结果令人惊讶:这些随机生成器的几个变体在 ImageNet 上产生了准确率上具有竞争力的网络。

  • 使用 WS 模型的最佳生成器生成的多个网络性能优于或可与完全手工设计的同类网络和通过各种神经结构搜索方法找到的网络相媲美。
  • 还观察到,对于同一生成器生成的不同随机网络,精度的方差较低,但不同生成器之间存在明显的精度差距。这些观察结果表明,网络生成器的设计很重要。
  • 最后,工作表明,从设计单个网络到设计网络生成器的新过渡是可能的,类似于如何从设计特征过渡到设计学习特征的网络。

作者建议设计新的网络生成器来生成用于搜索的新模型家族,而不是主要关注使用固定生成器进行搜索。设计的网络生成器的重要性还意味着机器学习尚未实现自动化 —— 底层的人工设计只是从网络工程转变到网络生成器工程 (Network Generator Engineering)。

具体的网络生成方式在这里不介绍了,感兴趣的读者可以参见原文。

实验分析

作者对 ImageNet 1000 类分类任务进行了实验。训练在~1.28M 图像的训练集上进行,并在 50K 验证图像上进行测试。

实验结果

随机生成器

de79af2d4c64c488796c4201bf0e5ca0.png

图 3 比较了小型计算环境中不同网络生成器(ER、BA、WS)的性能。

641a27c264647f7e7ecddfdca98656be.png

图 4 显示了每个生成器的一个示例图。图生成器由随机图模型 (ER/BA/WS) 及其参数集指定,如 ER (0.2)。根据这些图可以观察到: 所有随机生成器在所有 5 个随机网络实例上都提供良好的准确度,而且它们没有一个不收敛。此外,随机网络实例之间的差异很小。 几乎所有随机生成器的标准偏差 (std) 都为 0.2 ~ 0.4%。

Graph damage

通过随机移除一个节点或边来探索 Graph damage的性能影响。

fcfeccbc22eaa9b0b284b50338b76a34.png

当删除边时,我们评估了精度损失与该边的目标节点的输入程度 (图 5,底部)。

节点操作

00eda67b0517ac7641f40b9191eceb7a.png

图 6 显示了图 3 中列出的每个生成器的平均精度。

结果比较

小型计算设置

03fd70d19404d6b6fba5f003aebab783.png

表 2 比较了在较小计算条件下的结果,这是现有 NAS 论文中研究的一种常见设置

dddc8ead5e6e5427a460e5f5578b394a.png

表 3 比较了 RandWire 与 ResNet 和 ResNeXt 在与 ResNet-50/101 类似的 FLOPs 的情况下的性能。RandWire 的平均准确率分别比 ResNet50 和 ResNet-101 高 1.9% 和 1.3%,比 ResNeXt 高 0.6%。

更大的计算条件

0f360e2dea896b62d98d2e7820fce62f.png

表 4 比较了在更大计算条件下的结果

COCO 对象检测

最后,作者报告了通过微调网络进行 COCO 对象检测的结果。我们使用 Faster R-CNN 和 FPN 作为目标探测器。

599f55045fd27be0eb14ae30658a4f69.png

表 5 比较了对象检测结果。观察到的趋势与表 3 中的 ImageNet 实验相似。这些结果表明,我们的随机连接网络学习到的特征也可以迁移。

外界评价

论文发表后,随即有学者声称其此前已做过类似idea的work。例如来自UC Berkeley的马毅教授。下面引用他的微博(@毅马当闲):

大家可能看到这篇何恺明组最新的文章 提出随机网络效果一点不比ResNet等高级networks差。其实这正是我们早在2013年PCA-Net论文中提出过的RandNet的观点。当时两层的随机Convolution network,没有任何supervison训练,在小数据集上效果比肩当时最好的算法(就差一两个点)。而这样的网络,有压缩感知理论的支持。当然,我们当时没有几百个GPUs,没有把方法scale到大的数据库上去吸引眼球,或加上supervision 训练去进一步提升几个点。陶泽轩和Emmanuel Candes很早就提出,当高维空间数据有低维结构时,任何随机投影都可以保持结构信息。不同投影之间差别不大。这是压缩感知的核心。 现在是时候好好反思一下,目前各式各样的深度模型(尝试出来的也好,随机生成的也好),除了利用反馈fit了数据,到底额外学到了什么东西?甚至在算法设计思想方法上,有哪些本质的提高。很多早就有的好的理论、思想、方法,不再关心。非得重新再通过经验尝试,再来把所有的坑重新踩一遍;所有好的方法,重新再发明一遍(甚至不那么正确的重新发明一遍)?

最后引用来自朋友圈的一句:“只要有足够多的显卡,瞎**搞也能跑出好结果”。-_-||,哈哈

@凯恩博

版权声明

本文版权归《凯恩博》,转载请自行联系。

点击下方链接地址,了解CCAI 2019更多信息

CCAI 2019 中国人工智能大会​ccai.cn
b2389799a2519e347bb2a8fe8c0b8c28.png

f41247edf84eda6c3cd04e584c1c71c5.png

35f296ca78ff9b7a86e5d5977c5a18c3.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值