产品线的长度宽度深度_深度学习与统计力学(II) :深度学习的表达能力

791597e46c75b442066a6a421272e4c9.png
谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。

英文原报告“深度学习统计力学”

一些开创性的结果[19,20]表明,只要隐层神经元数量足够多,只有一个隐含层的浅层网络就可以从一个有限维空间到另一个有限维空间,万能地逼近任何Borel可测函数。这些结果带来了一个基础的问题:为什么具有许多隐含层的深层神经网络在解决机器学习和人工智能中的关键问题时具有功能优势?

1 用深层网络高效计算特殊函数

重要的是,文献[19]和[20]中关于函数逼近的早期结果并没有说明通过浅层网络逼近或表达任何给定函数需要多少隐神经元。与浅层网络相比,深层网络的成功的一个关键因素是他们的强表达能力。这个概念主要对应于两个直觉。

首先,深度网络可以在输入空间上紧凑地表达高度复杂的函数,而具有一个隐含层和相同数量神经元的浅层网络则不能。

第二种直觉吸引了机器学习[21]和神经科学[22]的想象力,即 深层神经网络可以将输入空间中高度弯曲的决策边界分离为隐含空间中平坦的决策边界,以帮助提高简单线性分类器的性能

为了更精确地定义决策边界,考虑公式(1)中的深度网络

,进一步限制输出
是一个标量函数
。这个网络可以完成二元分类任务,根据
的正负来将输入向量
划分到两种类别。那么满足方程
的余维1流形就是网络的决策边界。

还可以在倒数第二个隐含层

中类似地定义决策边界。由于该隐含层中的决策边界必须是线性超平面,根据
到标量
的线性映射,输入空间中的决策边界可能由于公式(1)中
的高度非线性映射而高度弯曲。

我们这里关注第一种直觉。一些工作展示了一些特殊复杂函数的例子,这些函数可以用一些神经元来计算,神经元数量在使用深层网络时会随着输入维数的多少而多项式增长,但在使用浅层网络时神经元数量在输入维数上成指数增长[23-27]。

这些工作中采用的理论技术既限制了理论对特定非线性的适用性,又规定了所涉及的深层功能复杂性的特定度量。例如,文献23关注 ReLU 非线性和一些线性区域数作为复杂性度量;文献24关注计算多项式的和积网络,以及多项式中的单项数作为复杂性度量;文献28着重于Pfaffian非线性和复杂度的拓扑度量,如决策边界的 Betti 数之和。

因此,这些工作留下了一个开放的基本问题:特定的函数例子能够由特定的深层网络有效地计算,仅仅是因为巧合,还是在某种意义上任何浅层网络无法高效计算的函数都可以通过包含更多非线性的通用深层网络高效地计算?

2 瞬态混沌的表达能力

最近的工作[29]通过结合黎曼几何和动态平均场理论[30]来分析信号在随机深层网络的传播,其中权重和偏置是从零均值高斯分布中独立同分布采样的。在由权值和偏置的方差形成的相位平面中,这项工作揭示了信号传播的有序和混沌状态之间的动态相变(图1a和图1b的例子中,公式(1)中的非线性函数设置为

)。

直观来看,对于较小的权重,相对于偏差的强度,当输入点通过深层网络的层传播时,邻近的输入点合并,并且前馈映射保持在线性区域内。然而,对于较大的权重,信号传播对应于交替的线性扩张和非线性折叠,导致附近输入的指数发散而不引起输入范数的爆炸,就像具有正 Lyapunov 指数的递归动力系统中的混沌传播一样。我们将在第4节中更详细地介绍这种相变。

30ebf5ae88a5d82343762ff72bb202f1.png

图1 瞬时混沌的深层神经表达。(a)随机深层神经网络中有序和混沌信号传播的动态相变,其与权重方差

和偏差方差
有关[29,31]。这种相变适用于原点斜率有限的任何光滑奇饱和非线性。图中的结果显示的是
的结果。(b) 一个简单流形在混沌系统中通过多层传播的例子。(c) 输入空间中决策边界或余维1流形
的一个例子。在
产生最大主曲率的点
处流形的规范化二次逼近对角化的特征值,量化了与切平面
的偏离。文献29中发展了这些主曲率传播的动态平均场理论。该理论揭示,输入空间中与输出空间中的平坦边界相关联的决策边界的主曲率在混沌区域中随深度呈指数增长。图中PCA为主成分分析的缩写。

在这种混沌状态下,对于随机网络[29;图1b],简单一维输入流形的长度和积分外曲率的全局度量通常随深度呈指数增长,而相应的长度度量最大增长率为浅层网络宽度的平方根,无论人们如何选择权重。这就证明了随机深层网络不能用浅层网络来逼近,除非浅层网络指数级数量的神经元。在这种混沌状态下,输出空间中的平坦决策边界对应的输入空间中的决策边界的主外曲率随着深度指数增长[29;图1c]。此外,在热门的 ReLU 非线性上一个密切相关的研究也显示了输入流形的长度随着深度呈指数增长,神经网络训练对较低层更敏感,有趣的是轨迹的长度可能是一个有用的正则化器[32]。

一般来说,需要更多的理论工作来理解深层网络如何以及何时能够有效地在我们希望在人工智能中学习的类型的自然输入域上表达更多的自然函数。沿着这条线有趣的早期方向包括分析一般的复合函数类[33],以及探索简单神经网络分类光滑流形的能力[34]。

系列预告

数据科学人工智能:深度学习与统计力学(I) :深度学习中的基础理论问题​zhuanlan.zhihu.com
8e9ffc34389b9ccf7bd2a3cc3cb118d0.png
  • 深度学习与统计力学(II) :深度学习的表达能力
  • 深度学习与统计力学(III) :神经网络的误差曲面
  • 深度学习与统计力学(IV) :深层网络的信号传播和初始化
  • 深度学习与统计力学(V) :深度学习的泛化能力
  • 深度学习与统计力学(VI) :通过概率模型进行“深度想象”
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值