文献总结：ON THE TRAINING AND GENERALIZATION OF DEEP OPERATOR NETWORKS(关于深度算子网络的训练和泛化)

最新推荐文章于 2024-11-13 12:51:48 发布

Zion__

最新推荐文章于 2024-11-13 12:51:48 发布

阅读量1.3k

点赞数 25

文章标签：神经网络人工智能深度学习机器学习

本文链接：https://blog.csdn.net/Zion__/article/details/139636392

版权

ON THE TRAINING AND GENERALIZATION OF DEEP OPERATOR NETWORKS(关于深度算子网络的训练和泛化)

算子网络DeepONet由两个网络构成，即trunk网络和branch网络，通常是同时训练这两个网络，这相当于是在高维空间中解决复杂的优化问题，同时，非凸和非线性的性质也使得训练非常有挑战性。为了解决这个问题，本文提出了一种新的训练方法，即两步训练方法，先训练trunk网络，再训练branch网络，通过将复杂的训练任务分解为两个子任务，降低了复杂度。

首先trunk网络被认为是表示输出函数的基，而branch网络是对应的系数，第一步的目的是在不引入branch网络的情况下，通过trunk网络和相应的系数一起找到基表示，第一步找到的系数对于branch网络来说，是目标值；因此在第二步中，训练branch网络以学习从第一步中得到的值。

2.准备工作

令 $\Omega_x\subset\mathbb{R}^{d_x}$ ， $\Omega_y\subset\mathbb{R}^{d_y}$ 是紧区域（区域的任何开覆盖都有有限子覆盖），令 $(\mathcal{X},d_\mathcal{X})$ 是定义在 $\Omega{x}$ 上的函数的度量空间， $(\mathcal{Y},\Vert\cdot\Vert_\mathcal{Y})$ 是定义在 $\Omega_{y}$ 上的函数的赋范空间.

令
$\mathcal{G}:\mathcal{X}\ni f\mapsto\mathcal{G}[f]\in\mathcal{Y}$
是用神经网络逼近的算子

首先把 $f$ 转化为有限维的，有两种方法，第一种是固定一组离散化的点 ${x_i\}_{i=1}^{m_x}$ ，离散 $f$ 为: 截屏2024-06-11 13.46.09

第二种是提取 $f$ 的有限多个Fourier系数，例如假设：截屏2024-06-11 13.48.15

其中 $\hat{f}_i=<f,\phi_i>$ ，那么就令：截屏2024-06-11 13.51.14

其中 $m_x$ 表示输入函数传感器的数量.

2.1.DeepONet

对于：截屏2024-06-11 13.55.24

一个L层的神经网络是从：截屏2024-06-11 13.56.33

的映射，其中 $z^L$ 循环定义为：截屏2024-06-11 13.57.41

这里， $\sigma$ 是非线性激活函数， $W^l\in\mathbb{R}^{n_l\times n_{l-1}}$ 和 $b^l\in\mathbb{R}^{n_l}$ 分别是第 $l$ 层的权重矩阵和偏置向量.向量 $\vec{n}$ 被称为网络结构.

branch网络是一个向量值的 $L_b$ 层神经网络：截屏2024-06-11 14.23.18

它的结构是: 截屏2024-06-11 14.24.24

其中 $\theta$ 表示网络参数，N指的是DeepONet的宽度，即每层神经元的个数.

trunk网络是向量值的 $L_t$ 层神经网络，它定义在 $\Omega_y\subset\mathbb{R}^{d_y}$ 上：截屏2024-06-11 14.26.15

其中 $\phi_0(\cdot;\mu)=(\phi_1(\cdot;\mu),\cdots,\phi_N(\cdot;\mu))$ 是一个 $L_t$ 层神经网络，它的网络结构是 $\vec{n}_t=(d_y,n_1^{(t)},\cdots,n_{L_t-1}^{(t)},N)$ ，并且 $\mu$ 表示网络参数.

之后，DeepONet被定义为branch网络和trunk网络的内积，即：截屏2024-06-11 14.33.07

其中 $\Theta=\{\mu,\theta\}$ 是DeepONet的可训练参数.

2.2. DeepONet的训练

令 ${f_k\}_{k=1}^K$ 是 $\mathcal{X}$ 中的一组输入函数， $u_k(\cdot)=\mathcal{G}[f_k](\cdot)$ 是对应的 $\mathcal{Y}$ 中的输出函数.我们希望最小化如下函数：截屏2024-06-11 14.38.41

p是一个依赖于 $\Vert\cdot\Vert_{\mathcal{Y}}$ 的正数，例如，如果 $\Vert\cdot\Vert_{\mathcal{Y}}$ 是 $L_2$ 范数，那么p=2.

在实际操作中，我们要将 $\Vert\cdot\Vert_{\mathcal{Y}}$ 离散化，令 $\Vert\cdot\Vert_{\mathcal{Y}_{m_y}}$ 是离散范数.所以上述优化问题转换为最小化如下损失函数：截屏2024-06-11 14.56.50

通常优化问题使用一阶优化方法来求解，如随机梯度下降，然而损失函数的非凸性和非线性性经常阻碍这些方法得到令人满意的损失最小化。虽然有很多研究证明了，DeepONet有能力近似许多非线性算子，特别是涉及PDE的算子，但是如果没有有效的训练机制，DeepONet的这种表达能力将失去效果.

3.方法

为了解决上述问题，本文提出了新的训练方法.首先，简单起见，令 $\mathcal{Y}=L_{\omega}^p(\Omega_y)$ ，相应的范数是：截屏2024-06-11 14.51.38

其中 $\omega$ 是概率测度，满足: $\int_{\Omega_y}d\omega(y)=1$ ，并利用蒙特卡洛采样得到它对应的离散范数：截屏2024-06-11 14.54.13

其中 ${y_i\}_{i=1}^{m_y}$ 是 $\omega$ 的独立同分布的随机样本， $m_y$ 是输出函数的传感器个数.

训练数据是：截屏2024-06-11 15.04.31

从而由(2.4)可知训练损失函数即为: 截屏2024-06-11 15.11.13

其中 $\theta$ 和 $\mu$ 分别是branch网络和trunk网络的所有网络参数.

3.1. 损失函数的矩阵表示

令：截屏2024-06-11 15.12.54

并且 $U=[u_1,\cdots,u_K]\in\mathbb{R}^{m_y\times K}$ .

从而(3.1)可以表示为：截屏2024-06-11 15.14.29

其中 $\Vert\cdot\Vert_{p,p}$ 是逐项的矩阵范数（F范数），从而训练DeepONet也就是求解如下优化问题：截屏2024-06-11 15.15.45

3.2.DeepONet的重新参数化

令T是一个规模是N+1的可训练平方矩阵，并且考虑一个新的trunk网络 $\hat{\phi}$ ，它的形式是：截屏2024-06-11 15.18.38

由此产生的DeepONet就是：截屏2024-06-11 15.22.04

利用这个重参数化，我们考虑如下损失函数：截屏2024-06-11 15.27.39

本文所提出的训练方法旨在解决问题(3.3)。注意到 $\Phi(\mu)T$ 可以被视为以新的trunk网络 $\hat{\phi}$ 为基的类范德蒙矩阵.(?)

3.3 两步训练方法

假设 $m_y>N$

Step 1. 第一步通过最小化如下问题来训练新的trunk网络：截屏2024-06-11 15.33.55

令 $(\mu^{\star},A^{\star})$ 是最优解，假设 $\Phi(\mu^{\star})$ 满秩.令 $T^{\star}=(R^{\star})^{-1}$ ，其中 $R^{\star}$ 是 $\Phi(\mu^{\star})$ 的QR分解，也就是 $\Phi(\mu^{\star})=Q^{\star}R^{\star}$ .从而trunk网络就完全确定为 $\hat{\phi}(\cdot;\mu^{\star},T^{\star})$ .

Step 2. 第二步训练branch网络去匹配 $R^{\star}A^{\star}$ ，也即考虑如下优化问题：截屏2024-06-11 15.40.54

假设 $\theta^{\star}$ 是最优解，那么branch网络就是 $c(\cdot;\theta^{\star})$ .

Remark：由于(3.4)相对于A是凸的(p>1时)，所以第一步避免了branch网络的非线性和非凸性带来的困难.

$T^{\star}$ 的作用可以被视为在关于离散点 ${y_j\}$ 的标准trunk网络上应用Gram-Schmidt，有没有 $T^{\star}$ 对近似能力没有提升，但是引入 $T^{\star}$ 会显著提高稳定性和泛化能力.

3.4. 误差分析

我们首先证明把(3.4)和(3.5)求解得到的最优解代入(3.3)等于(3.2).

定理3.4. 假设branch网络的结构足够大，使得对于任何 $M\in\R^{(N+1)\times K}$ ，都存在 $\tilde{\theta}$ ，满足 $C(\tilde{\theta})=M$ .令 $(\mu^{\star},A^{\star})$ 和 $\theta^{\star}$ 分别是(3.4)和(3.5)的最优解，那么：截屏2024-06-11 16.06.33

证明： 反正法.若存在 $\{\hat{\mu},\hat{\theta}\}$ 满足: 截屏2024-06-11 16.10.47

令 $\hat{A}:=C(\hat{\theta})$ ，从而：截屏2024-06-11 16.13.44

矛盾.

再令 $\hat{\mu}=\mu^{\star}$ 和 $\theta$ 是branch网络参数满足 $C(\hat{\theta})=A^{\star}$ .从而：截屏2024-06-11 16.18.06

对于trunk网络的训练(3.4)，如果恰当选择trunk网络的结构，可以做到Loss为0.

定理3.5. 假设p=2，U的秩为r，并且(2.3)中的trunk网络 $\phi_0$ 是一个 $2m_y+1)$ 层的Relu网络，它的结构如下：截屏2024-06-11 16.23.56

那么就会存在 $\mu^{\star}$ 和 $A^{\star}$ 满足：截屏2024-06-11 16.24.40

特别的，如果 $N\ge r$ ，那么 $\mathcal{L(\mu^{\star},A^{\star})=0}$ .

证明： 令 $U=Z\Sigma_rV^T$ 是U的SVD分解.令：截屏2024-06-11 16.27.48

其中 $\Sigma_{1:s}$ 是 $\Sigma_r$ 的前s阶子矩阵， $V_{1:s}$ 是V的前s阶子矩阵.可以验证如果trunk网络满足如下条件：截屏2024-06-11 16.31.01

其中 $Z^{(i)}$ 是Z的第i行， $Z_{1:s}^{(i)}$ 是 $Z^{(i)}$ 的前s项.那么通过令 $A^{\star}=[\vec{0},\tilde{A}]$ ，则 $\Phi(\mu)A^{\star}=\Phi_0(\mu)\tilde{A}=Z_{1:\tilde{r}}\Sigma_{1:\tilde{r}}V_{1:\tilde{r}}^T$ ，从而可以得证.其中 $\tilde{r}=min\{N,r\}$ ， $\Phi_0(\mu)$ 的第i行是 $\phi_0^T(y_i;\mu)$ .

接下去我们将显式构造一个深度ReLU网络满足(A.1)

（？？？？？）

定理3.6. 假设trunk网络的结构如定理3.5中所述，且 $N\ge r$ .假设branch网络的结构足够大，以至于对于任何 $M\in\R^{(N+1)\times K}$ ，都存在 $\tilde{\theta}$ 都满足 $C(\tilde{\theta})=M$ ，那么：截屏2024-06-11 21.42.20

**证明：**由定理3.5可知存在 $\mu^{\star},A^{\star}$ 满足 $\mathcal{L}(\mu^{\star},A^{\star})=0$ 当 $N\ge r$ 时.由于对任何一个矩阵都存在 $\tilde{\theta}$ ，使得 $C(\tilde{\theta})=M$ ，所以存在 $\theta^{\star}$ ,满足 $C(\theta^{\star})=M$ .从而：截屏2024-06-11 21.50.39

进一步再结合定理3.4可知 $0=\mathcal{L}(\mu^{\star},T^{\star},\theta^{\star})=min\mathcal{L}(\{\mu,\theta\})$ .

证毕.

泛化误差分析

泛化误差指的是：令 $\mathcal{X}_K=\{f_1,\cdots,f_K\}\subset\mathcal{X}$ 是一个函数集， $\{u_j:=\mathcal{G}[f_j]:j=1,\cdots,K\}$ 是对应的算子 $\mathcal{G}$ 的输出函数， $O_{net}$ 是完全训练好的DeepONet，对于 $f\in\mathcal{X}\setminus\mathcal{X}_{K}$ ，那么DeepONet $O_{net}$ 在 $f$ 的泛化误差就是：截屏2024-06-12 13.52.40

算子学习的最终目标是从有限多个数据中构造一个神经算子 $O_{net}$ ，满足在 $\mathcal{X}$ 上产生小的泛化误差.

接下去进行泛化误差分析：假设训练数据的数量是 $K$ ，输入函数传感器的数量 $m_x$ ，输出函数传感器的数量 $m_y$ ，DeepONet的宽度 $N$ .

让我们考虑一类从 $\mathcal{X}$ 到 $\mathcal{Y}=L_{\omega}^2(\Omega_{y})$ 的算子类 $\mathcal{C}_{op}$ ，它有如下谱的形式：截屏2024-06-12 14.10.05

其中 ${c_j\}$ 是在 $\mathcal{X}'$ 上的 $L_j$ -Lipschitz函数，满足: 截屏2024-06-12 14.25.01

并且 $\{\psi_j(\cdot)\}_j$ 是 $L_{\omega}^2(\Omega_{y})$ 的正交基，满足：截屏2024-06-12 14.27.00

然后可知 $\mathcal{C}_{op}$ 中的每个算子都是Lipschitz的.

命题4.1 任何 $\mathcal{G}\in\mathcal{C}_{op}$ 都是Lipschitz连续的，记 $L_\mathcal{G}$ 是 $\mathcal{G}$ 的Lipschitz常数.

证明： 对于任何 $f,f'\in\mathcal{X}$ ，发现：截屏2024-06-12 15.46.16

证毕.

令：截屏2024-06-12 16.00.21

是 $\mathcal{G}[f]$ 的最佳N项逼近.

令：截屏2024-06-12 16.01.36

是对应的最佳N项逼近误差

为了保证最佳N项逼近误差的一致有界性和一致衰减率，下面进行了几个假设.

假设4.2（算子） 对于任何 $\mathcal{G}\in\mathcal{C}_{op}$ ，假设：

1.存在一个常数M>0，对于任何 $f\in\mathcal{X}$ ，对于几乎每个y，都成立 $|\mathcal{G}[f](y)|\le M$ ;

2.令：截屏2024-06-12 16.13.04

是 $\mathcal{X}$ 上的最佳N项逼近误差的上确界.

假设截屏2024-06-12 16.17.20 成立，对于某些依赖于 $\mathcal{X},\mathcal{G}$ 和基 $\{\phi_j\}$ 的 $r_{\mathcal{G},\mathcal{X}}>0$ .

由于DeepONet需要从无限维空间 $\mathcal{X}$ 中提取有限维信息作为输入，为了量化需要多少输入函数来填充区域，做出以下假设：

假设4.3（输入函数和传感器） 符号 $\lesssim$ 用于抑制仅依赖于 $(\mathcal{X},d_\mathcal{X})$ 的常数.

1.对于除了有限多个 $m_x$ 之外的所有 $m_x\in\N$ ，都存在 $m_x$ 个离散化点 $\{x_j\}_{j=1}^{m_x}\in\Omega_x$ 满足：截屏2024-06-12 16.39.19

其中截屏2024-06-12 16.39.59 是加权欧几里得范数， $\alpha>0$ 是一个仅依赖于 $\mathcal{X}$ 的常数.

2.对于任何 $K\in\N$ ，都存在K个输入函数: 截屏2024-06-12 16.41.41

满足对于任何 $f\in\mathcal{X}$ ，对于一些仅依赖于 $\mathcal{X}$ 的 $s > 0$ ，成立：截屏2024-06-12 16.42.43

举个例子：令：截屏2024-06-12 16.45.30

定义一个在 $\mathcal{X}\times\mathcal{X}$ 上的映射 $d_{\mathcal{X}}$ ，满足: 截屏2024-06-12 16.46.54

这样定义的映射是一个度量. 对于一个给定的点集 ${x_j\}_{j=1}^{m_x}$ ，其中存在一个点的2范数小于等于1，并且令 $\omega_j=0$ 如果 $\Vert x_j\Vert>1$ ， $\omega_j=\frac{1}{|\{x_i|\Vert x_i\Vert\le 1\}|}$ 如果 $\Vert x_j\Vert\le 1$ .对于 $f\in\mathcal{X}$ ，令：截屏2024-06-12 17.03.35

和：截屏2024-06-12 17.03.57

从而：截屏2024-06-12 17.04.22

这是假设4.3.1

对于任何 $K\in\N$ ，令 $\mathcal{X}_K=\{f_1,\cdots,f_K\}$ ，其中 $f_i\in\mathcal{X}$ 和 $f_i(0)=\frac{i}{K}$ .从而对于任何 $f\in\mathcal{X}$ , 都存在 $g\in\mathcal{X}_K$ 使得：截屏2024-06-12 17.07.00

这就是假设4.3.2.

接下去，假设可以形成给定测度的正交基，有了这个假设之后就可以使用最小二乘分析.

假设4.7（trunk网络和传感器） 设F是一组可行的trunk网络参数，定义为：截屏2024-06-12 19.01.35

其中 $F_t=\{\mu:\exist T_\mu使得\hat{\phi}(\cdot;\mu,T_\mu)是L_\omega^2(\Omega_y)的正交基\}$ .假设 $\{y_1,\cdots,y_{m_y}\}$ 是从概率测度 $\omega$ 中随机独立取的一组离散化点.对于 $r_t>0$ ，假设 $m_y$ 充分大满足：截屏2024-06-12 19.09.11

最后介绍branch网络的假设，简单起见，为了让(3.5)的loss为0，假设网络是一个宽度足够大的两层神经网络.

假设4.8（branch网络） 1.branch网络是一个两层神经网络，它的激活函数 $\sigma$ 是Lipschitz连续的.

2.对于每个K，都存在一个宽度是 $n_K$ 的两层branch网络，它能够使得(3.5)的loss为0. 也就是说，存在 $\theta^{\star}$ 满足 $C(\theta^\star)=R^\star A^\star$ . 具体地说，设 $\theta^\star=\{\gamma_l,\beta_l,w_l\}_{l=1}^{n_K}$ , 其中截屏2024-06-12 19.16.09

那么对于 $k=1,\cdots,K$ ，成立：截屏2024-06-12 19.16.40

其中 $(R^\star A^\star)_k$ 是 $R^\star A^\star$ 的第k列.

3.设: 截屏2024-06-12 19.18.34

假设 $L_c(K,N,m_x)$ 是独立于 $K,N,m_x$ 一致有界的，记它的上界是 $\bar{L}_c$ .

下面利用上面的假设来表征完全训练的DeepONet的泛化误差：

定理4.10 假设4.2，4.3，4.7，4.8都成立. 令 $O_{net}$ 是完全训练好的DeepONet，也就是trunk网络是由(3.4)得到的，其中p=2， $\mu^\star\in F$ 如假设4.7定义的那样；branch网络是由(3.5)得到的.给定截断算子 $\mathfrak{T}_M(z)=sign(z)max\{M,|z|\}$ ，令 $\tilde{O}_{net}[f](y):=\mathfrak{T}_M(O_{net}[f](y))$ . 那么对于任何 $f\in\mathcal{X}$ , 成立：截屏2024-06-12 19.33.48