谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
英文原报告“深度学习统计力学”。
即使一个深层网络能够通过选择参数表达所需的函数,也不清楚什么时候可以通过(随机)梯度下降将公式(3)中的训练误差
在本节中,我们回顾从统计力学复杂能量曲面和神经网络误差曲面的各种类比中获得的见解,以及从神经网络误差曲面的受控数值探索中获得的见解。
1 随机高斯曲面和鞍点
在机器学习中,许多早期的工作都是由凸曲面上的优化所提供的强大理论保证所推动的,在凸曲面上的每一个局部最小值都是全局最小值[35]。相反,对非凸曲面的优化则持怀疑态度,因为传统的观点认为这种曲面可能会充满高误差的局部极小值,这可能会捕获梯度下降动力学并影响性能。尽管少数变量上的一般非凸函数可能确实具有高误差局部极小值,但在高维中通常不是这样。
统计物理中经典的光滑
这个零系综的临界点的统计数据展示了一个有趣的典型结构,为高维空间上一般函数的形状提供了一个窗口[36]。具体地,任意梯度消失的临界点
- a)临界点的高度
;
- b)函数曲面下降的方向指数或比例
。
其中比例
文献36发现了
图2 神经网络误差曲面的类比。(a) 平滑随机高斯曲面临界点典型结构示意图。更多负方向的临界点出现在较高的误差处。(b) 实践中神经网络误差临界点处,
尽管
这些基于物理的关于大型神经网络不存在高误差局部极小值的结论与更多的数学工作一致,证明了在更简单的情况下这种极小值是不存在的。文献39证明了具有一个隐含层的线性神经网络的误差曲面不存在非全局极小的局部极小,所有高误差临界点都是鞍点,文献40将这一结果推广到更深层的线性网络。
2 与自旋玻璃的类比
最近的工作[41]也显示了神经网络的误差曲面与统计物理中一个成熟的模型,即球形自旋玻璃的能量函数之间的联系。一般来说,神经网络的误差曲面是突触权重
这里,
对公式(6)中误差函数形状的严格分析揭示了临界点的有趣结构[44,45]。事实上,
负曲率方向最有可能出现在误差水平的窄带内,随着带的高度随
最近的工作[46]对神经网络上的SGD动力学与D-自旋球形自旋玻璃能量函数进行了仔细的比较,发现了有趣的共性,但也有差异。在平均场玻色系统中,物理方法[47]和严格方法[48]都表明,梯度下降动力学在没有障碍交叉的情况下收敛到最宽和最高的极小值,尽管存在更深的局部和全局极小值。相比之下,文献46的工作在梯度下降动力学中发现了其他有趣的老化现象,这些现象表明当降低训练误差时,更平坦的方向普遍存在。
3 与干扰的类比
文献49和50通过考虑一个称为 Hinge 损失的特殊损失函数
我们现在用一个平行符号来描述干扰问题,并与神经网络训练进行类比。干扰问题的一个简单版本考虑固定体积中的一组
干扰场景展示了一种有趣的相位转换,即许多粒子可以自由移动的低密度相位(图2d)和大多数成对相互作用涉及粒子与正能量重叠的高密度干扰相位(图2e)。在神经网络类比中,低密度相对应于过度参数化的情形,较少的
4 实际神经网络曲面的探索
除了发展和比较示例理论模型的误差曲面,许多工作探索实际的神经网络曲面。最近的研究甚至对非常大的神经网络[55,56]的 Hessian 矩阵进行了数值探索[53,54]。有趣的是,经过训练后,曲面底部附近的 Hessian 呈现出一个重尾的体谱,加上一组与分类任务中的类标签数量一一对应的异常值。
文献57和58中给出了另一个有趣的误差曲面,其中含有罕见但较宽的梯度下降优先发现的极小值,这表明有可能出现有助于找到这些极小值[59]的新的熵算法。随着进一步的理论发展,需要获得一个统一的、高分辨率的神经网络误差曲面观形态。系列预告
数据科学人工智能:深度学习与统计力学(I) :深度学习中的基础理论问题zhuanlan.zhihu.com
深度学习与统计力学(III) :神经网络的误差曲面
深度学习与统计力学(IV) :深层网络的信号传播和初始化
深度学习与统计力学(V) :深度学习的泛化能力
深度学习与统计力学(VI) :通过概率模型进行“深度想象”