神经网络的气宗与剑宗之争：先验强大的网络甚至不需要训练

最新推荐文章于 2024-05-13 16:49:47 发布

AI 研习社

最新推荐文章于 2024-05-13 16:49:47 发布

阅读量974

点赞数

文章标签：神经网络

本文链接：https://blog.csdn.net/qq_42793029/article/details/91953000

版权

研究人员探索了权重不重要的神经网络（WANN），在多个任务中发现仅使用随机权重的网络也能表现出色，挑战了深度学习中权重训练的重要性。通过算法搜索，找到的网络即使未经训练也能执行任务，揭示了网络结构的强大作用。

摘要由CSDN通过智能技术生成

雷锋网 AI 科技评论按：深度神经网络中有许多连接权重，这些权重的值对网络表现有巨大影响；通过反向传播可以定向优化这些权重，提高网络的表现，这个过程被称作「训练」；训练过程通常需要多轮迭代，需要大量的稠密矩阵运算；这些都是领域内的常识。因为训练过程如此地重要，深度学习研究人员们都会设立多 GPU 阵列加速训练过程，关于训练技巧的论文连篇累牍，甚至还有「深度学习调参师」、「玄学调参」、「希望上帝给我一个好的初始随机种子」之类的调侃。

那么连接权重是影响神经网络表现的唯一因素吗？应该也不是。不仅近几年中人类手工设计的许多网络架构以更少的参数、更高的表现证明了网络架构重要性，神经架构搜索（NAS）更在各种任务中分别找到了可以达到更高表现的网络架构。不过，这些网络架构都仍然需要经过适当的训练才能得到好的表现，似乎只是说明了「适当的架构和适当的训练可以相得益彰」。

本着对照实验的精神，我们似乎应该设计另一组实验：为了说明训练的影响，我们在相同架构的网络上做不同的训练；那为了说明架构的影响，我们需要在不同架构的网络上做相同的训练；根据实验结果我们就可以定性、定量地分析训练和架构各自的影响，厘清这场神经网络的「气宗与剑宗之争」（网络结构与训练的影响之争）。

说明架构影响的这件事并不好做，如何在不同架构的网络上做相同的训练就首先是一个难题。谷歌大脑的研究人员 Adam Gaier 和 David Ha 在近期的论文《Weight Agnostic Neural Networks》（https://arxiv.org/abs/1906.04358）中做出了自己的尝试，得到了有趣的结果。雷锋网 AI