谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
英文原报告
深度学习与统计力学 - 深度学习 - 数据酷客社区cookdata.cn在对公式(3)的误差曲面运行梯度下降之前,我们必须要选择参数
一些自然的问题是,如何选择方差
1 随机神经网络中的动态相变
随机网络中的信号传播理论在一个大宽度的平均场极限(即对所有的
1.1 输入的前向传播
为了从输入的前向传播的视角来理解动态相变,考虑一个
在大宽度平均场极限下,当点云通过网络的层进行传播时,我们可以通过一组从
这里
在不动点处的小的偏离
对于不动点形式为公式(8)的全连接网络,在光滑有界非线性
有趣的是,这种输入几何形状的信息传播的发散深度尺度与训练极深的临界网络的能力相吻合[31](如图3所示)。此外,在远离临界点时,可靠的前向信息传播的深度尺度决定了神经网络可以训练的深度。这种临界相变、发散的深度尺度和临界状态下的深度可训练性不仅在全连接网络中观察到[31],而且还在卷积网络[63],自编码器[64]和循环网络[65,66]中观察到。
图3 信号传播预测可训练性。每个子图显示当模型的超参数在二维网格上变化时,预测准确性从完美(红色)到随机猜测(黑色)的变化。白线显示在每种情况下决定可训练性的数量的平均场预测。总的来说,我们在广泛的体系结构中看到了极好的一致性。(a) 全连接网络与信号传播的深度尺度的比较。(b) 残差网络在常数梯度范数时的比较曲线。(c)具有深度尺度的卷积网络用于信号传播。(d-e)包含信号传播时间尺度的循环神经网络。(f)具有用于梯度爆炸的深度尺度的批量标准化的全连接网络。更多细节见文献31。
当相同的网络使用无界非线性函数,例如 ReLUs 时,则表现出一个有界相位(
1.2 误差信号的后向传播
训练深层网络的一个关键想法是往希望的方向移动每一层的权重
这里
这里每一层神经元数量都一样,即对所有
文献31表明,在全连接网络中,误差的后向传播和输入的前向传播密切相关。因此当公式(8)中
除了为初始化带来新的见解,对信号传播和梯度后向传播的平均场分析为深度学习的一些其他现象带来新的解释。这些现象包括对抗样本的本质[72],Fisher 信息的特征值[73],权重量化的效果[74],以及基于图神经网络的图分割[75]等。
2 动力等距与自由概率理论
上一小节我们已经显示公式(9)中的雅克比矩阵
在线性网络网络中可以简单地选择正交的权重矩阵(而非高斯权重)来满足动力等距。并且从理论上和经验上都表明,正交初始化时,训练时间(用训练步数来度量)与网络深度无关[76]。而在高斯初始化中,即使
文献77将这一结果推广到非线性网络,文献78则利用自由概率理论[79,80]中的强大工具将
图 4a 不同深度下,宽度为 1000 的 ERF 网络的端到端雅可比矩阵的经验奇异值密度(实线)和理论奇异值密度(虚线)。
有趣的是,这一工作还揭示我们甚至可以在非线性网络中使用正交权重和 Sigmoid非线性函数(或者更一般的原点附近局部线性而其他地方的导数有界的非线性函数)来达到动力等距。而深度学习中最流行的非线性函数之一 ReLU 则不满足上述条件。这一工作进一步显示,如果权重是高斯分布的,则没有非线性函数能够达到动力等距[78]。这些针对
图 4b 深度为 200,宽度为 400 的网络在 CIFAR-10 测试数据集上的正确性变化。不同的曲线表示不同的非线性函数和权重初始化,动力等距程度由蓝变红变黑逐渐降低。
动力等距的条件在很多其他架构中也被分析,包括残差网络[81],循环神经网络(RNN)[65],LSTM/GRU[66],以及卷积神经网络(CNN)[63]。在卷积神经网络中,动力等距我们能够训练包括10000层的极深的网络[见图4c]。
图4c 不同深度下以动力等距初始化的 CNN 在 CIFAR-10 上的训练准确性和测试准确性,分别如点线和实线所示。训练深度可达 10000 层。
因此,将随机矩阵理论应用到深层网络可以得到更好的训练模式。实际上,在深度学习的很多场景,随机矩阵理论都被证明是一个非常强大的工具,包括神经网络损失曲面的几何形状[83],激活矩阵和 Fisher 信息矩阵的谱计算[84],学习动力学的研究[85-87],以及一些其他应用[88-90]。
3 超越平均场:有限宽度和路径积分
上述的理论结果基于两个关键的简化假设:无限宽度极限,以及权重和偏置的独立同分布假设。在这种平均场极限下,满足自平均性质,通过对网络集合进行平均,可以精确地分析计算单个网络的前向传播输入的几何形状和雅可比谱。
为了研究有限宽度或训练网络[91,92]的功能作用,我们必须超越平均场。尽管这类深度学习的研究还处于初级阶段,我们可以在研究自旋玻璃[93]中有限尺寸效应的理论工作基础上,以及分析自旋玻璃[95中涨落的路径积分方法[94],以及随机[94]和确定性[96–99]神经网络的基础上进行研究[参见文献100和101]。这种路径积分方法既可以分析计算包含相关性和响应函数的方程[102],也可以利用费曼图和循环展开来系统地处理波动[100,101,103-105]。
最近,这种路径积分方法被用来分析训练好的前馈网络[91]。然而这种方法对于洞察深度学习的不同方面还有更多的潜力。事实上,这种方法已经在解释有限尺寸校正[99],相关性[106],非线性[107]的影响,以及循环网络应用等方面获得了成功,它也可能在前馈网络的平均场之外产生类似的见解[91,108]。
系列预告
数据科学人工智能:深度学习与统计力学(I) :深度学习中的基础理论问题zhuanlan.zhihu.com深度学习与统计力学(IV) :深层网络的信号传播和初始化
深度学习与统计力学(V) :深度学习的泛化能力
深度学习与统计力学(VI) :通过概率模型进行“深度想象”