偏微分方程数值解法pdf_天生一对,硬核微分方程与深度学习的联姻之路

机器之心原创

作者:蒋思源

微分方程真的能结合深度神经网络?真的能用来理解深度神经网络、推导神经网络架构、构建深度生成模型?本文将从鄂维南、董彬和陈天琦等研究者的工作中,窥探微分方程与深度学习联袂前行的路径。

近日,北京智源人工智能研究院开展了第一次论坛,其以「人工智能的数理基础」这一重大研究方向为主题,从数学、统计和计算等角度讨论了智能系统应该怎样融合数学系统。

在论坛中,北京大学董彬副教授、林伟研究院和张志华教授等研究者从基础出发介绍了「数学」眼中的机器学习是什么样的。而这些数理基础,正好是构建可计算、可泛化、可解释和稳健 ML 系统所必需的。

在众多演讲中,我们发现董彬老师介绍的微分方程非常有吸引力,它对于探索新的深度学习架构、构建更高性能的深度学习模型非常有帮助。因此在这篇文章中,我们重点关注微分方程在深度学习中的应用,看起来,它们确实是天生一对的组合。

微分方程与深度学习

深度学习还能与微分方程相结合?是的,这是一个很有意思的领域,近来也有非常多的研究成果,包括 NeurIPS 2018 的最佳论文。那么什么是微分方程,它结合深度学习又有什么用呢?

按照维基百科的描述:「微分方程是一种数学方程,用来描述某一类函数与其导数之间的关系」,因此一个方程如果同时包含函数及其导数,那么就可以称为微分方程。例如,f'(x) = 2x 就是一个常微分方程,我们可以「看出来」其通解为 f(x)=x^2 +C,其中 C 表示任意常数。

不过深度学习一般也就会用到概率论、线性代数和最优化等基础数学,似乎与微分方程没什么关系?其实并不然,如果我们探索网络架构到底与数学的哪些概念是相关的,那么会发现深度神经网络可以理解为一种微分方程。即,深度神经网络架构,就是离散化的微分方程。

因此如果能找到了微分方程与深度网络之间的关系,那么两个领域之间的研究成果就能互相借鉴,也就能找到更高效的深度模型。

此外,深度学习的模型设计缺少系统指导,大多数深度学习模型都缺少可解释性,这也限制了它的应用。如果加上了微分方程,那么网络架构就是数值微分方程,网络训练就是最优控制,神经网络的设计也就能有理论指导了。

efa7e0f44142148332cb1d5aea665704.png

如上图所示,比较受关注的是神经网络架构与数值微分方程之间的关系,这个领域早期比较有影响的就是北大、普林斯顿教授鄂维南老师的研究,它首次将残差网络理解为微分方程。北大董彬等研究者在 ICML 2018 中进一步表明 ResNet、PolyNet、FractalNet 和 RevNet 等网络都可以理解为微分方程的不同数值离散方式。

此外,在 NeurIPS 2018 的最佳论文中,陈天琦等研究者提出神经常微分方程,在近似常数级的内存成本上,ODENet 能实现高效的图像分类和生成任务。在 ICLR 2019 中,陈天琦等研究者进一步将微分方程应用到流模型中,从而获得内存效率更高的生成模型。

正如董彬老师所言,通过结合微分方程,我们可以从数学角度出发设计网络架构,并分析它们的泛化性能和可解释性。在这篇文章中,我们希望从基本概念到应用,介绍该领域的一些新想法。

数学老师眼中的 ResNet

鄂维南院士是一位主要关注数学领域的研究者,也是北京大学和普林斯顿大学的教授。在 17 年的《Communications in Mathematics and Statistics》中,鄂维南发表了一篇文章,他讨论了使用连续动力学系统建模高维非线性函数的想法,即微分方程与深度学习之间的关系。

以下是该工作的地址:

  • 论文:A Proposal on Machine Learning via Dynamical Systems

  • 论文地址:https://link.springer.com/article/10.1007/s40304-017-0103-z

在这篇「Proposal」中,鄂老师表示深度神经网络可以理解为离散的动力学系统。离散的动力学系统很难分析,但连续的动力学系统在数学上更易于分析,因此它可作为深度

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值