Cokriging代理模型理论相关推导

月下香

已于 2023-05-27 20:17:56 修改

阅读量3.2k

点赞数 8

分类专栏：优化算法文章标签：算法

于 2023-01-16 00:27:57 首次发布

本文链接：https://blog.csdn.net/sengyuweiyanga/article/details/128699578

版权

优化算法专栏收录该内容

7 篇文章

订阅专栏

02 Cokriging变可信度代理模型理论相关推导

2.1 代理模型问题的基本描述
2.2 Cokriging 模型及其预估值
2.3 相关函数
2.4 模型参数训练
参考文献

Cokriging模型是20世纪70年代发展起来的一种地质统计学插值模型。在地质统计学领域，为了提高对某个抽样比较困难的量的预测精度，提出了采用更容易抽样的量进行辅助预测的Kriging模型，称为Cokriging模型，本文对Cokriging模型相关理论进行了推导。

2.1 代理模型问题的基本描述

对于一个有 $m$ 个设计变量的优化问题，在设计空间中同时进行高可信度分析和低可信度抽样，以建立所谓变可信度模型，变可信代理模型在达到相同近似精度的条件下，可以显著提高建立代理模型的效率。设高、低可信度分析程序的抽样位置分别为：
$\begin {cases} \mathbf S_1=[\mathbf x_1^{(1)} \ \ \mathbf x_1^{(2)} \ \ \ldots \ \ \mathbf x_1^{(n_1)}]^T\in\R^{n_1\times m} \\ \mathbf S_2=[\mathbf x_2^{(1)} \ \ \mathbf x_2^{(2)} \ \ \ldots \ \ \mathbf x_2^{(n_2)}]^T\in \R^{n_2 \times m} \end {cases} \tag{1}$
上式中，下标 “1” 和 “2” 分别代表高、低可信度，例如 $n_1$ 和 $n_2$ 分别代表高、低可信度样本点数（可合理假设 $n_2\gg n_1$ ）。相应的目标函数或约束函数响应值为：
$\begin {cases} \mathbf y_1=[y_1^{(1)} \ \ y_1^{(2)} \ \ \ldots \ \ y_1^{(n_1)}]^T\in\R^{n_1} \\ \mathbf y_2=[y_2^{(1)} \ \ y_2^{(2)} \ \ \ldots \ \ y_2^{(n_2)}]^T\in\R^{n_2} \end {cases} \tag{2}$
结合高可信度数据集 $(\mathbf S_1, \mathbf y_1)$ 和低可信度数据 $(\mathbf S_1,\mathbf y_2)$ 可以建立 Cokriging 模型。

2.2 Cokriging 模型及其预估值

Cokriging 模型预估值定义为：
$\hat y_1 (\mathbf x)= \boldsymbol \lambda^T\mathbf y_s=\boldsymbol \lambda_1^T\mathbf y_1+\boldsymbol \lambda_2^T\mathbf y_2 \tag{3}$
上式中： $\boldsymbol \lambda_1$ 、 $\boldsymbol \lambda _2$ 分别为对高低可信度响应值的加权系数，只要给出加权系数 $\boldsymbol \lambda_1 = [\lambda_1^{(1)} \ \ \lambda_1^{(2)} \ \ \ldots \ \ \lambda_1^{n_1}]$ 和 $\boldsymbol\lambda_2 = [\lambda_2^{(1)} \ \ \lambda_2^{(2)} \ \ \ldots \ \ \lambda_2^{(n_2)}]$ ，就可以得到设计空间中任意点的响应值。为了计算这两个加权系数，引入统计学假设，假设存在分别与 $y_1$ 、 $y_2$ 对应的两个高斯静态随机过程：
$\begin {cases} Y_1{(\mathbf x)} =\beta_1+ Z_1(\mathbf x) \\ Y_2(\mathbf x)=\beta_2+ Z_2(\mathbf x)\end {cases} \tag {4}$
上式中， $\beta_1$ 、 $\beta_2$ 均为未知常数，也称为全局趋势模型，它们分别代表 $Y_1(\mathbf x)$ 和 $Y_2(\mathbf x)$ 的数学期望值； $Z_1(\cdot)$ 、 $Z_2(\cdot)$ 是均值为0，方差分别为 $\sigma _1^2$ 和 $\sigma_2^2$ 的静态随机过程。在设计空间不同位置处，随机变量之间的协方差和交叉协方差定义为：
$\begin {cases} Cov(Z(\mathbf x_1^{(i)}),Z(\mathbf x_1^{(j)}))=\sigma_1^2R^{(11)}(\mathbf x_1^{(i)},\mathbf x_1^{(j)}) \\ Cov(Z(\mathbf x_2^{(i)}),Z(\mathbf x_2^{(j)}))=\sigma_2^2 R^{(22)} (\mathbf x_2^{(i)},\mathbf x_2^{(j)}) \\ Cov(Z(\mathbf x_1^{(i)}),Z(\mathbf x_2^{(j)}))=\sigma_1\sigma_2R^{(12)}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}) \end {cases} \tag{5}$
上式中， $\sigma_1^2$ 和 $\sigma _2^2$ 分别为随机过程 $Y_1(\mathbf x)$ 和 $Y_2(\mathbf x)$ 的过程方差。

基于上述假设，Cokriging 模型寻找最优加权系数 $\boldsymbol \lambda_1$ 和 $\boldsymbol \lambda_2$ 使得均方差：
$MSE(\hat y_1(\mathbf x))=E[(\boldsymbol \lambda_1^T\mathbf Y_1+\boldsymbol \lambda_2^T \mathbf Y_2- Y_1(\mathbf x))^2] \tag{6}$
最小，并引入无偏估计：
$E[\boldsymbol \lambda_1^T\mathbf Y_1+\boldsymbol \lambda_2^T\mathbf Y_2]=E[Y_1] \tag{7}$
无偏估计化简得：
$\beta_1(\sum_{i=1}^{n_1}\lambda_1^{(i)}-1)+\beta_2\sum_{j=1}^{n_2}\lambda_2^{(j)}=0 \tag{8}$
为了让无偏估计条件不依赖于 $\beta_1$ 和 $\beta_2$ 的取值，取如下更强一些的无偏估计条件：
$\sum_{i=1}^{n_1}\lambda_1^{(i)}-1=0,\ \ \sum_{i=1}^{n_2}\lambda_2^{(i)}=0 \tag{9}$

采用拉格朗日乘数法，令：
$L(\boldsymbol\lambda_1,\boldsymbol \lambda_2,\mu_1,\mu_2)=E[(\boldsymbol \lambda_1^T\mathbf Y_1+\boldsymbol \lambda_2^T\mathbf Y_2-Y_1(\mathbf x))^2] + \mu_1(\sum_{i=1}^{n_1}\lambda_1^{(i)}-1)+\mu_2\sum_{j=1}^{n_2}\lambda_2^{(j)} \tag{10}$
令：
$\begin {cases}\frac {\partial L(\boldsymbol \lambda_1,\boldsymbol \lambda_2,\mu_1,\mu_2)}{\partial \lambda_1^{(i)}}= E[2(\boldsymbol \lambda_1^T\mathbf Y_1+\boldsymbol \lambda_2^T\mathbf Y_2-Y_1(\mathbf x))*Y_1(\mathbf x_1^{(i)})] +\mu_1= 0 \\ \frac {\partial L(\boldsymbol \lambda_1,\boldsymbol \lambda_2,\mu_1,\mu_2)}{\partial \lambda_2^{(i)}}=E[2(\boldsymbol \lambda_1^T\mathbf Y_1+\boldsymbol\lambda_2^T\mathbf Y_2-Y_1(\mathbf x))*Y_2(\mathbf x_2^{(i)})]+\mu_2=0 \\ \frac{\partial L(\boldsymbol\lambda_1,\boldsymbol \lambda_2,\mu_1,\mu_2)}{\partial\mu_1}= \sum_{i=1}^{n_1}\lambda_1^{(i)}-1 =0 \\ \frac {\partial L(\boldsymbol \lambda_1,\boldsymbol \lambda_2,\mu_1,\mu_2)}{\partial \mu_2}=\sum_{i=1}^{n_2}\lambda_2^{(i)}=0 \end {cases} \tag{11}$
以式 (9) 中第一行式子为例演示展开过程：
$\begin {align} \frac {\partial {L(\boldsymbol \lambda_1,\boldsymbol \lambda_2,\mu_1,\mu_2)}}{\partial \lambda_1^{(i)}} &= 2E[(\sum_{j=1}^{n_1}\lambda_1^{(j)} Y_1(\mathbf x_1^{(j)}))\cdot Y_1(\mathbf x_1^{(i)})]+2E[(\sum_{j=1}^{n_2}\lambda_2^{(j)}Y_2(\mathbf x_2^{(j)})) \cdot Y_1(\mathbf x_1^{(i)})]-2E[Y_1(\mathbf x_1)\cdot Y_1(\mathbf x_1^{(i)})] + \mu_1 \\ &= 2\sum_{j=1}^{n_1}\lambda_1^{(j)}(\beta_1^2+\sigma_1^2R^{11}(\mathbf x_1^{(i)},\mathbf x_1^{(j)}))+2\sum_{j=1}^{n_2}\lambda_2^{(j)}(\beta_1\beta_2+\sigma_1\sigma_2R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))-2(\beta_1^2+\sigma_1^2R(\mathbf x_1^{(i)},\mathbf x_1))+\mu_1 \\ & =2(\sum_{j=1}^{n_1}\lambda_1^{(j)}-1)\beta_1^2+2\sigma_1^2(\sum_{j=1}^{n_1}\lambda_1^{(j)}R(\mathbf x_1^{(i)},\mathbf x_1^{(j)}))+2\beta_1\beta_2\sum_{j=1}^{n_2}\lambda_2^{(j)} +2\sigma_1\sigma_2(\sum_{j=1}^{n_2} \lambda_2^{(j)}R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))-2\sigma_1^2R^{11}(\mathbf x_1,\mathbf x_1^{(i)})+\mu_1 \\ &=-2\beta_1(\sum_{j=1}^{n_2}\lambda_2^{(j)}\beta_2)+2\sigma_1^2(\sum_{j=1}^{n_1}\lambda_1^{(j)}R(\mathbf x_1^{(i)},\mathbf x_1^{(j)}))+2\beta_1\beta_2\sum_{j=1}^{n_2}\lambda_2^{(j)}+ 2\sigma_1\sigma_2(\sum_{j=1}^{n_2}\lambda _2^{(j)}R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))-2\sigma_1^2R^{11}(\mathbf x_1,\mathbf x_1^{(i)})+ \mu_1 \\ &= 2\sigma_1^2(\sum_{j=1}^{n_1}\lambda_1^{(j)}R(\mathbf x_1^{(i)},\mathbf x_1^{(j)})+2\sigma_1\sigma_2(\sum_{j=1}^{n_2}\lambda _2^{(j)}R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))-2\sigma_1^2R^{11}(\mathbf x_1,\mathbf x_1^{(i)}) +\mu_1 \end {align} \tag{12}$
同样的过程可以展开式(9)中第二行式子得：
$\frac {\partial L(\boldsymbol\lambda_1,\boldsymbol\lambda_2,\mu_1,\mu_2)}{\partial \lambda_2^{(i)}}=2\sigma_1\sigma_2(\sum_{j=1}^{n_1}\lambda_1^{(j)}R^{12}(\mathbf x_1^{(j)},\mathbf x_2^{(i)}))+2\sigma_2^2(\sum_{j=1}^{n_2}\lambda_2^{(j)}R^{22}(\mathbf x_2^{(i)},\mathbf x_2^{(j)}))-2\sigma_1\sigma_2R^{12}(\mathbf x_1,\mathbf x_2^{(i)})+\mu_2 \tag{13}$
则式 (9) 简化如下：
$\begin {cases}2\sigma_1^2(\sum_{j=1}^{n_1}\lambda_1^{(j)}R(\mathbf x_1^{(i)},\mathbf x_1^{(j)})+2\sigma_1\sigma_2(\sum_{j=1}^{n_2}\lambda_2^{(j)}R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))-2\sigma_1^2R^{11}(\mathbf x_1,\mathbf x_1^{(i)}) +\mu_1=0 \\ 2\sigma_1\sigma_2(\sum_{j=1}^{n_1}\lambda_1^{(j)}R^{12}(\mathbf x_1^{(j)},\mathbf x_2^{(i)}))+2\sigma_2^2(\sum_{j=1}^{n_2}\lambda_2^{(j)}R^{22}(\mathbf x_2^{(i)},\mathbf x_2^{(j)}))-2\sigma_1\sigma_2R^{12}(\mathbf x_1,\mathbf x_2^{(i)})+\mu_2=0 \\ \sum_{i=1}^{n_1}\lambda_1^{(i)}-1 =0 \\ \sum_{i=1}^{n_2} \lambda_2^{(i)}=0 \end{cases} \tag{14}$
改写为矩阵形式有：
$\begin {bmatrix} \mathbf C^{(11)} & \mathbf C^{(12)} & \mathbf F_1 & \mathbf 0 \\ \mathbf C^{(21)} & \mathbf C^{(22)} & \mathbf 0 & \mathbf F_2 \\ \mathbf F_1^T & \mathbf 0^T & 0 &0 \\ \mathbf 0^T & \mathbf F_2^T & 0 & 0\end {bmatrix} \begin{bmatrix} \boldsymbol\lambda_1 \\ \boldsymbol \lambda_2 \\ \mu_1/2 \\ \mu_2/2 \end {bmatrix} =\begin {bmatrix} \mathbf c_1 \\ \mathbf c_2 \\1 \\0 \end {bmatrix} \tag{13}$
上式中：
$\begin {align} &\mathbf C^{(11)}=(\sigma_1^2R^{11}(\mathbf x_1^{(i)},\mathbf x_1^{(j)}))_{i,j} \in\R^{n_1\times n_1} \\ & \mathbf C^{(12)}=(\sigma_1\sigma_2R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))_{i,j}=(\mathbf C^{(21)})^T \in \R^{n_1 \times n_2} \\ &\mathbf C^{(22)}=(\sigma_2^2R^{22}(\mathbf x_2^{(i)},\mathbf x_2^{(j)}))_{i,j} \in \R^{n_2\times n_2} \\ & \mathbf c_1=(\sigma_1^2R^{11}(\mathbf x_1^{(i)},\mathbf x_1))_i \in\R^{n_1} \\ & \mathbf c_2=(\sigma_1\sigma_2R^{12}(\mathbf x_2^{(i)},\mathbf x_1))_i \in \R^{n_2} \\ & \mathbf F_1=[1 \ \ 1 \ \ \ldots \ \ 1]^T_i,i\in[1,n_1] \\ & \mathbf F_2=[1 \ \ 1 \ \ \ldots \ \ 1]^T_i,i\in[1,n_2] \end {align} \tag{14}$
为了在让 $\sigma_1$ 和 $\sigma_2$ 在式（13）中消去，设：
$\begin {align} &\widetilde {\boldsymbol \lambda}_1=\boldsymbol \lambda_1, \ \ \widetilde {\boldsymbol \lambda}_2=\frac {\sigma_2}{\sigma_1}\boldsymbol\lambda_2 \\ &\widetilde \mu_1=\mu_1/(2\sigma_1^2), \ \ \widetilde {\mu}_2=\mu_2/(2\sigma_1\sigma_2) \end {align} \tag{15}$
则式（13）化为：
$\begin {bmatrix} \mathbf R^{(11)} & \mathbf R^{(12)} & \mathbf F_1 & \mathbf 0 \\ \mathbf R^{(21)} & \mathbf R^{(22)} & \mathbf 0 & \mathbf F_2 \\ \mathbf F_1^T & \mathbf 0^T & 0 & 0 \\ \mathbf 0^T & \mathbf F_2^T & 0 & 0 \end {bmatrix} \begin {bmatrix} \widetilde {\boldsymbol \lambda}_1 \\ \widetilde {\boldsymbol \lambda}_2 \\ \widetilde \mu_1 \\ \widetilde \mu_2 \end {bmatrix}=\begin {bmatrix} \mathbf r_1(\mathbf x) \\ \mathbf r_2(\mathbf x) \\ 1 \\ 0 \end {bmatrix} \tag{16}$
上式中：
$\begin {align} & \mathbf R^{(11)} = (R^{11}(\mathbf x_1^{(i)},\mathbf x_1^{(j)}))_{i,j}\in\R^{n_1 \times n_1} \\ & \mathbf R^{(12)} =(R^{12}(\mathbf x_1^{(i)},\mathbf x_2^{(j)}))_{i,j}=\mathbf R^{(21)})^T \in\R^{n_1 \times n_2} \\ & \mathbf R^{(22)} =(R^{22}(\mathbf x_2^{(i)},\mathbf x_2^{(j)}))_{i,j}\in\R^{n_2 \times n_2} \\ & \mathbf r_1(\mathbf x)=\mathbf (R^{11}(\mathbf x_1,\mathbf x_1^{(i)}))_i \in \R^{n_1} \\ & \mathbf r_2(\mathbf x)=(R^{12}(\mathbf x_1,\mathbf x_2^{(i)}))_i\in\R^{n_2} \end {align} \tag{17}$
则 Cokriging 模型表达式：
$\hat y(\mathbf x) = \widetilde {\boldsymbol \lambda}_1^T\mathbf Y_{1,s}+\frac {\sigma_1}{\sigma_2}\widetilde {\boldsymbol \lambda}_2\mathbf Y_{2,s}=\begin {bmatrix} \widetilde{\boldsymbol \lambda}_1 & \widetilde {\boldsymbol \lambda}_2 \end {bmatrix} \begin{bmatrix} \mathbf y_{1,s} \\ \frac {\sigma_1}{\sigma_2}\mathbf y_{2,s} \end {bmatrix} \tag{18}$
结合式（16），则其矩阵形式为：
$\hat y_1(\mathbf x)=\begin {bmatrix} \mathbf r_1(\mathbf x) \\ \mathbf r_2(\mathbf x) \\ 1 \\0 \end {bmatrix}^T \begin {bmatrix}\mathbf R^{(11)} & \mathbf R^{(12)} & \mathbf F_1 & \mathbf 0 \\ \mathbf R^{(21)} & \mathbf R^{(22)} & \mathbf 0 & \mathbf F_2 \\ \mathbf F_1^T & \mathbf 0^T &0 &0 \\ \mathbf 0^T &\mathbf F_2^T & 0 & 0 \end {bmatrix}^{-1} \begin {bmatrix} \mathbf y_{1,s} \\ \frac {\sigma_1}{\sigma_2}\mathbf y_{2,s} \\ 0 \\ 0 \end {bmatrix} \tag{19}$
参考 Kriging 模型推导过程，可得 Cokriging 模型表达式如下：
$\hat y_1(\mathbf x)= \boldsymbol \varphi\widetilde {\boldsymbol\beta}+\mathbf r(\mathbf x)\mathbf R^{-1}(\widetilde {\mathbf y}_s-\mathbf F\widetilde{\boldsymbol \beta}) \tag {20}$
上式中：
$\begin {align} &\boldsymbol \varphi = \begin {bmatrix}1 \\ 0 \end {bmatrix}, \ \ \widetilde {\boldsymbol\beta}=\begin {bmatrix} \widetilde\beta_1 \\ \widetilde\beta_2 \end {bmatrix}=(\mathbf F^T\mathbf R^{-1}\mathbf F)^{-1}\mathbf F^T\mathbf R^{-1}\widetilde {\mathbf y}_s, \\ &\mathbf r=\begin {bmatrix} \mathbf r_1(\mathbf x) \\ \mathbf r_2(\mathbf x) \end {bmatrix} , \ \ \mathbf R=\begin {bmatrix} \mathbf R^{(11)} & \mathbf R^{(12)} \\ \mathbf R^{(21)} & \mathbf R^{(22)}\end {bmatrix}, \\ & \widetilde {\mathbf y}_s=\begin {bmatrix}\mathbf y_1 \\ \frac{\sigma_1}{\sigma_2} \mathbf y_2 \end {bmatrix}, \ \ \widetilde {\mathbf F}= \begin {bmatrix} \mathbf F_1 & \mathbf 0 \\ \mathbf 0 & \mathbf F_2\end {bmatrix} \end {align} \tag{21}$
在式（20）中，令 $v_{cok}=\mathbf R^{-1}(\widetilde {\mathbf y}_s-\mathbf F\widetilde {\boldsymbol \beta})$ ，那么 $\boldsymbol \varphi \widetilde \beta$ 和 $v_{cok}$ 只与已知样本点有关，已未知点无关，可以在模型训练结束后一次性计算并存储。之后，预测任意 $\mathbf x$ 处的响应值只需要计算 $\mathbf r(\mathbf x)$ 与 $\mathbf V_{krig}$ 间的点乘。

同理得到均方差为：
$MSE[\hat y_1(\mathbf x)]=\sigma_1^2[1.0-\mathbf r^T\mathbf R^{-1}\mathbf r+(\mathbf r^T\mathbf R^{-1}\widetilde {\mathbf F} - \boldsymbol \varphi)(\widetilde {\mathbf F}^T\mathbf R^{-1}\mathbf F)^{-1}(\mathbf r^T\mathbf R^{-1}\widetilde {\mathbf F}-\boldsymbol\varphi)^T] \tag{22}$

2.3 相关函数

在式 CoKriging模型表达式中，相关矩阵 $\mathbf R$ 和相关矢量 $\mathbf r $ 构造涉及相关函数的选择和计算，这一过程与 Kriging 模型建立过程是类似的。下表为常用的相关函数：

相关函数	$\mathbf R(\mathbf x - \mathbf x')$
Exponential function	$\mathbf R(\mathbf x , \mathbf x')=exp\{-\sum_{i=1}^m\theta_i/ \lvert {x_i -x_i'} \rvert \}$
Power function	$\mathbf R(\mathbf x , \mathbf x')=exp\{-\sum_{i=1}^m\theta_i/(x_i-x_i')^2\}$
Gaussian function	$\mathbf R(\mathbf x , \mathbf x')=exp\{-\sum_{i=1}^m\theta_i(x_i-x_i')^{p_i}\}$
Linear function	$\mathbf R(\mathbf x , \mathbf x')=max\{0,1-\sum_{i=1}^m\theta_i/ \lvert x_i-x_i' \rvert \}$
Ball function	$\mathbf R (\mathbf x,\mathbf x')=1-1.5\zeta+0.5 \zeta ^3, \\ \zeta=min\{ 1,\sum_{i=1}^m\theta_i \lvert x_i-x_i' \rvert \}$
Spline function	$\mathbf R(\mathbf x , \mathbf x')=\begin {cases}1-15(\sum_{i=1}^m \theta_i \lvert x_i-x_i' \rvert )^2+30(\sum_{i=1}^m \theta_i \lvert x_i-x_i' \rvert )^3 \ \ \ \ \ \ \ \ \ \ \ \ \ \ 0\leq\sum_{i=1}^m \theta_i \lvert x_i-x_i' \rvert \leq0.2 \\ 1.25(1-(\sum_{i=1}^m\theta_i \lvert x_i-x_i' \rvert)^3) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 0.2\leq\sum_{i=1}^m\theta_i \lvert x_i-x_i' \rvert \leq 1 \\ 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i=1}^m\theta_i \lvert x_i-x_i' \rvert \ge1 \end {cases}$

2.4 模型参数训练

采用“最大似然估计”对 Cokriging 模型超参数进行训练，由前述引入的高斯静态随机过程的假设，在任意一点 $\mathbf x$ 处的响应值 $\hat y(\mathbf x)$ 服从正态分布 $N(\beta_0,\sigma^2)$ ，则每个样本点处的概率密度函数为：

$P[Y(\mathbf x)]= \frac {1}{\sqrt{2\pi}\sigma}exp\left( -\frac{(y^{(i)}-\beta_0)^2}{2\sigma^2} \right),i=1, \ldots,n_1+n_2 \tag{23}$
则所有样本点的联合分布密度（即似然函数）为：
$L(\widetilde {\boldsymbol\beta}_0,\sigma_1/\sigma_2,\boldsymbol \theta^{(11)},\boldsymbol \theta^{(12)},\boldsymbol \theta^{(22)})=\frac{1}{\sqrt {(2\pi\sigma_1^2)^{(n_1+n_2)}|\mathbf R|}}\cdot exp(-\frac{1}{2}\frac {(\widetilde {\mathbf y}_s-\mathbf F\widetilde{\boldsymbol \beta})^T\mathbf R^{-1}(\widetilde {\mathbf y}_s-\mathbf F\widetilde{\boldsymbol \beta})}{\sigma^2}) \tag{24}$

与Kriging模型推导过程相似，让似然函数最大，可以得到：
$\begin {align} &\widetilde {\boldsymbol \beta}=(\mathbf F^T\mathbf R^{-1}\mathbf F)^{-1}\mathbf F^T\mathbf R^{-1}\widetilde {\mathbf y}_s \\ & \frac{\sigma_1}{\sigma_2}=\begin {pmatrix} \begin {bmatrix} \mathbf 0 \\ \mathbf y_2\end {bmatrix}^T\mathbf R^{-1}\begin {bmatrix} \mathbf 0 \\ \mathbf y_2 \end {bmatrix} \end {pmatrix}^{-1}\begin {bmatrix} \mathbf 0 \\ \mathbf y_2 \end {bmatrix}^T \mathbf R^{-1}\begin {bmatrix} -(\mathbf y_1-\mathbf F_1 \widetilde \beta_1) \\ -\mathbf F_2\widetilde \beta_2 \end {bmatrix} \\ & \sigma_1^2=\frac{(\widetilde {\mathbf y}_s-\mathbf F\widetilde {\boldsymbol\beta})^T\mathbf R^{-1}(\widetilde {\mathbf y}_s-\mathbf F\widetilde{\boldsymbol \beta})^T}{n_1+n_2} \end {align} \tag {25}$
将上式代入式（22）并对等式两边取对数有：
$ln[L(\boldsymbol\theta^{(11)},\boldsymbol \theta^{(12)},\boldsymbol \theta^{22})]=-\frac {1}{2}[(n_1+n_2)\cdot ln(\sigma_1^2)+ln(|\mathbf R|)] \tag{26}$
无法解析地求出 $\boldsymbol \theta^{(11)}$ 、 $\boldsymbol \theta^{(12)}$ 和 $\boldsymbol \theta^{(22)}$ 的最优值，需要采用数值优化算法寻优，如梯度优化算法等。