Physics-Embedded Machine Learning 文献调研分析

Hollyprince

已于 2023-03-08 21:36:52 修改

阅读量603

点赞数

文章标签：机器学习人工智能深度学习

于 2023-03-08 21:36:23 首次发布

原文链接：https://zhuanlan.zhihu.com/p/574970271

版权

Physics-Embedded Machine Learning 文献调研分析

[感谢原作者，原文链接](https://zhuanlan.zhihu.com/p/574970271)

使用机器学习建模的系统，很多具有各种形式的物理先验或者领域知识。如果使用基础的机器学习模型，预测的结果可能不符合这样的先验知识，使得我们对模型抱有质疑，甚至直接导致模型不可用；而如果可以将先验信息嵌入模型中，使得模型可以保证相关的性质被满足，则可以提升模型的数据效率、泛化能力、可解释性。

我们借用PETS^[1]这篇文章中给的一个简单样例进行解释。如下图所示，研究对象本身是一条正弦曲线（黑色实线），但是样本（绿色点）只存在于两个周期之中。因此，在样本分布范围之外，拟合模型（红线和蓝线）的表现会非常随机，而且与ground truth相差甚远。但如果我们已知所学习的对象是一条正弦曲线，那么我们只需要拟合其频率、幅度、相位这三个值就可以了，从而提升了学习的数据效率；此时如果依然只提供一部分区间上的数据，在区间外模型依然可以给出比较准确的预测结果，从而提升了泛化能力；而且模型本身具有正弦函数的形式，我们清楚地知道我们拟合对象的物理意义，使得模型本身的一部分变成了白盒，从而提升了模型的可解释性。

在详细介绍前，我们首先需要说明的是：

本文所述的物理先验（Physics Priors）是比较广义的理解，并且下文将根据先验信息的强弱程度将其分为：经典AI模型、性质先验嵌入（形状先验、不变/等变/对称/反对称性）、公式形式嵌入、可微物理模型，并分别进行阐释和分析。一些相关的survey：^[2]^[3]^[4]^[5]^[6]^[7]。
虽然嵌入物理先验可以带来上述好处（数据效率、泛化能力、可解释性），但这样做并不是没有缺点。物理先验嵌入的模型往往会带来训练难度增大、推理效率降低的问题。因此融合physics-driven和data-driven的模型仍涉及折中。
本文所述的物理先验嵌入（Physics Prior Embedding）指的是强令模型本身满足被研究系统所具有的某些物理先验。这不同于一个相似的流行的名词：Physics Informed (as in PINN)，这是将被研究系统所满足的方程作为“仿真器”从而为任意的采样点提供loss信号。
本文也不包含利用物理先验进行特征增强、在端到端建模中只选取一部分进行数据驱动建模而在其他环节保留严格的物理模型等方式，因为这些方式在机器学习模型本身并没有物理先验嵌入的设计。但另一方面，在一个实际问题中，这样的方式可能会更加有效。

经典AI模型

按道理这本不该在本文讨论的口径之内。但是一方面，有一些面向科学计算/物理仿真的很有影响力的工作用的就是经典AI模型；另一方面，一些经典的AI模型中其实已经内蕴了一些先验假设，例如局部性、平移不变性等。

PDE求解领域，PINN^[8]论文中主要使用了MLP，DeepXDE^[9]框架中当前包含了MLP、带residual connection的MLP网络等。Deep Ritz^[10]论文中使用了带residual connection的MLP网络。

图神经网络由于其具有较高的表示灵活性以及与网格剖分的天然联系，也常常应用于PDE代理仿真器的模型结构（如MeshGraphNet^[11]，CFD-GCN^[12]，MP-PDE^[13]等）。

然而图结构与mesh结构毕竟不完全等价，导致用图神经网络表征mesh也天然具有瓶颈。MeshCNN^[14]被设计用以专门对非结构化的三角形网格进行表征。具体而言，MeshCNN利用了非结构化三角形网格中每一条边都与两个三角形面片相接的特点，以边为单位进行建模，并以两个三角形面片上的四条边作为临域定义卷积操作。进一步地，MeshCNN还设计了Mesh Pooling和Unpooling的操作方式。

性质先验嵌入

很多情况下，我们会知道被建模的系统应该具备某些性质，例如单调性、不变性等等。通过设计模型结构使得这样的性质被保证，对于模型的可用性会带来极大提升。下文中我们分别从形状先验和不变/等变/对称/反对称两种情形分别介绍。

形状先验

这里所说的“形状先验”，指的是类似于非负性、单调性^[4]、凹凸性等等我们对拟合对象所具有的先验信息。这个方向似乎从未成为学术界的一个重要的研究方向，但是近一二十年也一直有新的工作涌现，而且也有顶会/顶刊的工作。下面我们根据不同的基础模型类型进行介绍。

1. 保序回归（Isotonic Regression）：

对于保单调性的拟合，有一类上古技术isotonic regression，针对一维特征数据，会给出一个分段常数的预测结果，以最小化mse loss。为了克服isotonic regression结果分段常数不连续的缺点，^[15]引入了相邻两个预测值的差值的L2正则化项，并提出了相应的求解算法。

2. 多项式回归：

工作^[16]注意到形状约束在多项式模型上关于待优化的系数是线性的，因此通过保证约束在包含自变量的可行域的凸包的顶点上得到满足，就可以保证约束在可行域上被满足。这虽然是一个充分不必要条件，但是将约束条件数目缩减为有限个，从而将参数的训练建模成带线性约束的二次优化问题。
单纯的多项式回归会面临优化困难的问题，且表达能力较受限。基于性质：一个多项式在全实轴或者部分区间上非负，则必能写成多项式平方和的某种组合的形式，工作^[17]用Sum of Squares Polynomials的形式进行拟合。工作^[18]进一步证明了Sum of Squares Polynomials在box中对于凸的、单调的、有界的多项式函数的一般表示能力。

3. 树模型：

2022年的一篇survey^[5]中，把决策树的模型约束分为三类：structure-level从计算存储效率、可解释性、防止过拟合等角度考虑控制决策树的结构和规模，例如结点总数、树的深度、叶子结点数；attribute-level指的是模型关于特征的单调性、特征引入增加成本、特征在决策树上有顺序先后限制、隐私性/公平性约束等情况；instance-level指的是特定样本一定要被归为某一类、某些样本一定要被归为同一类等样本级要求。加入这样的约束相应会对优化算法带来要求，包括top-down的贪心算法、枚举法、组合优化等等。
关于保单调性的GBRT，主流库XGBoost^[19]和scikit-learn^[20]都进行了集成。

4. 高斯过程回归：

2020年的一篇survey^[6]中，考虑了在GPR模型中加入非负性、单调性、凹凸性约束，以及线性PDE的方程约束和边界条件约束。手段上，该survey归结出如下几类：在GPR的输出上施加变换、增加伪点、改变似然概率分布的类型、在最大似然优化的过程中添加约束、设计kernel函数保证约束，等等。

5. 神经网络：

通过网络结构严格保证先验性质：

早在1997年就有保单调的神经网络的研究^[21]。其线性层中，对于需要保单调增的输入特征，令权重为正；对于需要保单调减的输入特征，令权重为负。对于线性层的输出，分组取max，再对所有组的max值取min得到最终的输出，这样组内表示了一个局部的凸函数，而组的组合可以表征非凸的全局形状。这样的结构被证明具有一般表示性。后续的一项工作^[22]进行了进一步的分析，使用正权重的单隐层MLP虽然具有对单变量单调函数的一般表示能力，但是对于多变量单调函数就不具有一般表示能力了，而最多使用变量维度个隐层的MLP则可以任意逼近相应的多变量单调函数。与此相对的是，只有一层线性层的Min-Max神经网络^[21]则可以对任意维度的（部分）单调函数进行无限逼近。
Monotonic multi-layer perceptron networks as universal approximators (MONMLP)^[23]考虑一个三层的MLP，通过控制权重的正负性来保证输出对输入的单调性，并证明了其一般表示能力。
保凸性神经网络ICNN^[24]利用了性质：一个凸函数和一个凸且单调不减函数的复合函数依然是凸函数。因此我们只需要保证一个全联接神经网络的线性层的权重非负、激活函数是凸函数且单调不减，那么复合而成的神经网络依然是凸的。进一步地，ICNN中增加了"passthrough"层，将输入变量通过线性层连接到各个隐层中，以增强模型的表达能力。
Unconstrained Monotonic Neural Network (UMNN)^[25]保证神经网络的输出非负，再对输出进行积分，从而保证了积分函数的单调性。前向计算中使用了Clenshaw-Curtis quadrature以提升积分的数值效率。

通过优化（约束或惩罚）保证先验性质，优点是可以灵活地添加各种约束，缺点是因为优化求解的问题以及只能在采样点上施加约束，因此难以提供严格保证：

GCNN-LP^[26]对RBF神经网络的优化问题加入线性约束，以支持特定点数值、对称性、排序、单调性等先验的嵌入。借助RBF网络局部估计的特点，对于区间的要求可以通过可行域分解的方式变成有限个约束条件。
PenDer^[27]将微分形式的约束加入loss函数并使用Augmented Lagrangian Method求解约束优化。
Certified Monotonic Neural Networks^[28]的思路与一般的带约束优化或者加入正则项的思路有比较大的区别。基于单调性的定义可以写出一个优化问题，优化问题的解可以用于验证模型是否满足了单调性要求。对于使用ReLU激活函数的全连接神经网络，该函数是分段线性的，因此优化问题会变成一个混合整数线性规划（MILP）问题。

6. Lattice神经网络：

Deep Lattice Network (DLN)的结构被提出并大量用于保单调的学习^[29]^[30]。DLN的可训练变量是插值函数的锚点值。通过保证锚点值的单调性，我们可以保证插值函数的单调性。工作^[31]进一步将DLN用于集合输入数据。例如某个餐厅的用户评价中如果有一条提高了，那么对餐厅的整体评价也应该只能上升。

不变/等变/对称/反对称

输入数据所具有的特定结构（Grids、Groups、Graphs等^[32]）相应会带来特定的不变/等变性。一般的解决范式是，需要保持不变/等变性的变换操作会构成一个群，我们在这个群上定义可学习的卷积操作^[33]。

1. 集合数据的交换不变/等变性：深度学习领域，大家相对比较熟悉的应该是集合形式输入带来的交换不变/交换等变性，例如点云数据。由于集合元素没有顺序，同样的集合以不同的顺序输入元素，其输出应该不变或随输入顺序相应变化。Deep Sets^[34]和PointNet^[35]使用形为 y 的解码。

可微物理模型

更进一步地，当我们掌握被研究系统的全部物理关系时，那么前向的仿真可以完全由严格的数值算法实现。而如果我们让这样的模型具有反向传播的能力，那么它就依然可以作为深度学习中的组件，帮助进行参数辨识、参数优化、最优控制等端到端任务。

相比于基于学习的拟合模型，当被研究系统本身被构建为可微物理模型的时候，其实已经不需要数据进行训练了（除非考虑其中有待定参数需要学习）；既然不用数据不用训练，就不存在OOD的问题，泛化能力也是无限；模型本身也相当于纯白盒，可解释性也完全拉满。但另一方面，其缺点在于，模型的前向计算过程就是严格的数值算法，因此推理效率较低。

相比于传统方法，自动微分可以克服数值微分的截断-舍入误差折中，达到机器精度；当输入变量高维、输出变量低维时（现实中大多数情况是这样的），反向自动微分的数值复杂度与输出维度呈正比，远高于通过有限差分获取梯度信息的精度和效率。在参数辨识、参数优化等反问题任务中，通过高效准确地提供梯度信息，可以提升优化器（梯度下降、全局优化、贝叶斯优化）的效率效果。

可微物理模型的实现需要自动微分、隐式梯度相关的一些技术和工具。当前，可微物理模型已经被应用在了ODE/PDE、图形渲染、刚体动力学、第一性原理计算等场景。关于这些方面的更详细的介绍可参考本系列的下一篇文章《Notes on 可微编程》。

##############################################

有求职、合作意向，请联系 xiangchen.ai@huawei.com。

##############################################

参考

^Chua, Kurtland, et al. "Deep reinforcement learning in a handful of trials using probabilistic dynamics models." Advances in neural information processing systems 31 (2018).
^Meng, Chuizheng, et al. "When Physics Meets Machine Learning: A Survey of Physics-Informed Machine Learning." arXiv preprint arXiv:2203.16797 (2022).
^Wang, Rui, and Rose Yu. "Physics-guided deep learning for dynamical systems: A survey." arXiv preprint arXiv:2107.01272 (2021).
^^a^bCano, José-Ramón, et al. "Monotonic classification: An overview on algorithms, performance measures and data sets." Neurocomputing 341 (2019): 168-182.
^^a^bNanfack, Géraldin, Paul Temple, and Benoît Frénay. "Constraint Enforcement on Decision Trees: A Survey." ACM Computing Surveys (CSUR) 54.10s (2022): 1-36.
^^a^bSwiler, Laura P., et al. "A survey of constrained Gaussian process regression: Approaches and implementation challenges." Journal of Machine Learning for Modeling and Computing 1.2 (2020).
^^a^b^cHan, Jiaqi, et al. "Geometrically equivariant graph neural networks: A survey." arXiv preprint arXiv:2202.07230 (2022).
^Raissi, Maziar, Paris Perdikaris, and George E. Karniadakis. "Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations." Journal of Computational physics 378 (2019): 686-707.
^Lu, Lu, et al. "DeepXDE: A deep learning library for solving differential equations." SIAM Review 63.1 (2021): 208-228.
^Yu, Bing. "The deep Ritz method: a deep learning-based numerical algorithm for solving variational problems." Communications in Mathematics and Statistics 6.1 (2018): 1-12.
^Pfaff, Tobias, et al. "Learning mesh-based simulation with graph networks." arXiv preprint arXiv:2010.03409 (2020).
^Belbute-Peres, Filipe De Avila, Thomas Economon, and Zico Kolter. "Combining differentiable PDE solvers and graph neural networks for fluid flow prediction." international conference on machine learning. PMLR, 2020.
^Brandstetter, Johannes, Daniel Worrall, and Max Welling. "Message passing neural PDE solvers." arXiv preprint arXiv:2202.03376 (2022).
^Hanocka, Rana, et al. "Meshcnn: a network with an edge." ACM Transactions on Graphics (TOG) 38.4 (2019): 1-12.
^Sysoev, Oleg, and Oleg Burdakov. "A smoothed monotonic regression via L2 regularization." Knowledge and Information Systems 59.1 (2019): 197-218.
^Wahl, Francois, and T. Espinasse. "Polynomial regression under shape constraints." (2014).
^Murray, Kevin, S. Müller, and B. A. Turlach. "Fast and flexible methods for monotone polynomial fitting." Journal of Statistical Computation and Simulation 86.15 (2016): 2946-2966.
^Curmei, Mihaela, and Georgina Hall. "Shape-constrained regression using sum of squares polynomials." arXiv preprint arXiv:2004.03853 (2020).
^https://xgboost.readthedocs.io/en/stable/tutorials/monotonic.html
^https://scikit-learn.org/stable/auto_examples/ensemble/plot_monotonic_constraints.html
^^a^bSill, Joseph. "Monotonic networks." Advances in neural information processing systems 10 (1997).
^Daniels, Hennie, and Marina Velikova. "Monotone and partially monotone neural networks." IEEE Transactions on Neural Networks 21.6 (2010): 906-917.
^Lang, Bernhard. "Monotonic multi-layer perceptron networks as universal approximators." International conference on artificial neural networks. Springer, Berlin, Heidelberg, 2005.
^Amos, Brandon, Lei Xu, and J. Zico Kolter. "Input convex neural networks." International Conference on Machine Learning. PMLR, 2017.
^Wehenkel, Antoine, and Gilles Louppe. "Unconstrained monotonic neural networks." Advances in neural information processing systems 32 (2019).
^Qu, Ya-Jun, and Bao-Gang Hu. "Generalized constraint neural network regression model subject to linear priors." IEEE Transactions on Neural Networks 22.12 (2011): 2447-2459.
^Gupta, Akhil, et al. "Pender: Incorporating shape constraints via penalized derivatives." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 35. No. 13. 2021.
^Liu, Xingchao, et al. "Certified monotonic neural networks." Advances in Neural Information Processing Systems 33 (2020): 15427-15438.
^Milani Fard, Mahdi, et al. "Fast and flexible monotonic functions with ensembles of lattices." Advances in neural information processing systems 29 (2016).
^You, Seungil, et al. "Deep lattice networks and partial monotonic functions." Advances in neural information processing systems 30 (2017).
^Cotter, Andrew, et al. "Shape constraints for set functions." International Conference on Machine Learning. PMLR, 2019.
^Bronstein, Michael M., et al. "Geometric deep learning: Grids, groups, graphs, geodesics, and gauges." arXiv preprint arXiv:2104.13478 (2021).
^^a^bCohen, Taco, and Max Welling. "Group equivariant convolutional networks." International conference on machine learning. PMLR, 2016.
^Zaheer, Manzil, et al. "Deep sets." Advances in neural information processing systems 30 (2017).
^Qi, Charles R., et al. "Pointnet: Deep learning on point sets for 3d classification and segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
^Lee, Juho, et al. "Set transformer: A framework for attention-based permutation-invariant neural networks." International conference on machine learning. PMLR, 2019.
^Worrall, Daniel, and Max Welling. "Deep scale-spaces: Equivariance over scale." Advances in Neural Information Processing Systems 32 (2019).
^Sosnovik, Ivan, Michał Szmaja, and Arnold Smeulders. "Scale-equivariant steerable networks." arXiv preprint arXiv:1910.11093 (2019).
^Zhu, Wei, et al. "Scaling-Translation-Equivariant Networks with Decomposed Convolutional Filters." arXiv preprint arXiv:1909.11193 (2019).
^Romero, David W., et al. "Wavelet networks: Scale equivariant learning from raw waveforms." arXiv preprint arXiv:2006.05259 (2020).
^Pfau, David, et al. "Ab initio solution of the many-electron Schrödinger equation with deep neural networks." Physical Review Research 2.3 (2020): 033429.
^Hermann, Jan, Zeno Schätzle, and Frank Noé. "Deep-neural-network solution of the electronic Schrödinger equation." Nature Chemistry 12.10 (2020): 891-897.
^Han, Jiequn, et al. "Universal approximation of symmetric and anti-symmetric functions." arXiv preprint arXiv:1912.01765 (2019).
^Hutter, Marcus. "On representing (anti) symmetric functions." arXiv preprint arXiv:2007.15298 (2020).
^Lutter, Michael, Christian Ritter, and Jan Peters. "Deep lagrangian networks: Using physics as model prior for deep learning." arXiv preprint arXiv:1907.04490 (2019).
^Cranmer, Miles, et al. "Lagrangian neural networks." arXiv preprint arXiv:2003.04630 (2020).
^Greydanus, Samuel, Misko Dzamba, and Jason Yosinski. "Hamiltonian neural networks." Advances in neural information processing systems 32 (2019).
^Lin, Guochang, et al. "Binet: learning to solve partial differential equations with boundary integral networks." arXiv preprint arXiv:2110.00352 (2021).
^Lin, Guochang, et al. "BI-GreenNet: Learning Green's functions by boundary integral network." arXiv preprint arXiv:2204.13247 (2022).
^Chen, Tianping, and Hong Chen. "Universal approximation to nonlinear operators by neural networks with arbitrary activation functions and its application to dynamical systems." IEEE Transactions on Neural Networks 6.4 (1995): 911-917.
^Lu, Lu, Pengzhan Jin, and George Em Karniadakis. "Deeponet: Learning nonlinear operators for identifying differential equations based on the universal approximation theorem of operators." arXiv preprint arXiv:1910.03193 (2019).