梯度增强 Kriging 代理模型理论相关推导

月下香

已于 2023-11-24 17:17:19 修改

阅读量1.2k

点赞数 2

分类专栏：优化算法文章标签：算法

于 2023-01-31 17:33:18 首次发布

本文链接：https://blog.csdn.net/sengyuweiyanga/article/details/128820930

版权

优化算法专栏收录该内容

7 篇文章 13 订阅

订阅专栏

04 梯度增强Kriging模型理论的相关推导

4.1 问题定义
4.2 GEK模型的建立
参考文献

梯度信息可用于提高 Kriging 模型精度，而如果采用Adjoint方法等快速求解梯度方法，还可提高建立Kriging模型的效率。利用梯度信息来提高Kriging模型的精度，成为一种新的代理模型方法，称为梯度增强型 Kriging（Gradient-Enhanced Kriging, GEK）模型。

4.1 问题定义

除一阶导数信息外，二阶导数信息也可用于提高代理模型的精度。而由于获得二阶导数的计算代价较大，且对于提高代理模型精度的作用有限，因而本文主要介绍在Kriging模型中引入一阶偏导数信息的情况。

对于一个具有 $m$ 个设计变量的优化问题，首先假设对目标函数（或状态变量） $y$ 在 $n$ 个抽样位置，获得 $n$ 个函数值及 $\times m$ 个偏导数值，则获得设计空间抽样位置及函数响应值分别为：
$\begin {align} &\mathbf S= \begin {bmatrix} \mathbf x^{(1)} & \ldots & \mathbf x^{(n)} & \mathbf x^{(1)} & \ldots & \mathbf x^{(1)} & \ldots & \mathbf x^{(n)} \ldots & \mathbf x^{(n)} \end {bmatrix}^T\in\R^{(n+nm)\times m}\\ & \mathbf y_s=\begin {bmatrix}y^{(1)} & \ldots & y^{(n)} & \frac {\partial y^{(1)}}{\partial x_1} & \ldots & \frac{\partial y^{(1)}}{\partial x_n} & \ldots &\frac {\partial y^{(n)}}{\partial x_1} & \ldots & \frac {\partial y^{(n)}}{\partial x_m} \end {bmatrix}^T \in \R^{n+nm} \end {align} \tag{1}$
由上式，每一个偏导数信息都被看作一个独立的样本信息。如果在某些点处的样本信息不可用，则从上述样本数据集的相应位置上去除即可；如果没有任何偏导数信息，GEK模型将退化为传统的Kriging模型。

4.2 GEK模型的建立

GEK模型对未知函数的预估值定义为所有抽样函数值和偏导数值的线性加权，即：
$\hat y(\mathbf x)=\sum_{i=1}^n\omega^{(i)}y^{(i)}+\sum_{j=1}^{m}\sum_{i=1}^n\lambda_j^{(i)}\frac {\partial y^{(i)}}{\partial x_j} \tag{2}$
上式中： $\omega^{(i)}$ 为第 $i$ 个（抽样位置）函数值的加权系数； $\lambda_j^{(i)}$ 为 $\partial y^{(i)}/\partial x_j$ （第 $i$ 个抽样位置处函数对 $j$ 维设计变量的偏导数）的加权系数。如果未知函数为物理量，则 $\lambda_j^{(i)}$ 的量纲与 $\omega \Delta x_k$ 相同。与传统的 Kriging 模型类似，引入静态随机过程假设：
$Y(\mathbf x)=\beta_0 + Z(\mathbf x) \tag 3$
上式中， $\beta_0$ 为未知常数，也被称为全局趋势模型，代表 $Y(\mathbf x)$ 的数学期望值； $Z(\cdot )$ 是均值为零、方差为 $\sigma ^2$ 的静态随机过程。在设计空间不同位置处，对应的随机变量之间的协方差满足：
$\begin {align} & Cov[Z(\mathbf x^{(i)}),Z(\mathbf x^{(j)})]=\sigma^2R(\mathbf x^{(i)},\mathbf x^{(j)}) \\ & Cov[\frac {\partial Z(\mathbf x^{(i)})}{\partial \mathbf x_k^{(i)}},Z(\mathbf x^{(j)})]=\sigma ^2\frac {\partial R(\mathbf x^{(i)},\mathbf x^{(j)})}{\partial \mathbf x_k^{(i)}}\\ &Cov[Z(\mathbf x^{(i)}),\frac {\partial Z(\mathbf x^{(j)})}{\partial \mathbf x^{(j)}_l}]=\sigma^2\frac {\partial R(\mathbf x^{(i)},\mathbf x^{(j)})}{\partial \mathbf x_k^{(j)}} \\ & Cov[\frac {\partial Z(\mathbf x^{(i)})}{\partial \mathbf x_l^{(i)}},\frac {\partial Z(\mathbf x^{(j)})}{\partial \mathbf x_k^{(j)}}]=\sigma^2\frac {\partial^2R(\mathbf x^{(i)},\mathbf x^{(j)})}{\partial \mathbf x_l^{(i)} \partial\mathbf x_k^{(j)}} \end {align} \tag{4}$
GEK模型寻找 $\boldsymbol \omega$ 和 $\lambda$ 使得下述均方差最小：
$MSE[\hat y(\mathbf x)]=E\left[ \left(\sum_{i=1}^n\omega^{(i)}y^{(i)} +\sum_{j=1}^n\sum_{i=1}^n\lambda_j^{(i)}\frac{\partial y^{(i)}}{\partial x_j} -Y(\mathbf x) \right)^2 \right] \tag{5}$
并满足无偏估计条件：
$\left[ Y(\mathbf x) \right] = E\left [ \sum_{i=1}^n \omega^{(i)}y^{(i)}+\sum_{j=1}^n\sum_{i=1}^n \lambda_j^{(i)}\frac {\partial y^{(i)}}{\partial x_j}-Y(\mathbf x) \right]\tag{6}$
无偏估计条件可简化如下：
$\sum_{i=1}^n\omega^{(i)}=1 \tag{7}$
构建拉格朗日函数：
$L=E\left[ \left(\sum_{i=1}^n\omega^{(i)}+\sum_{j=1}^n\sum_{i=1}^{n}\lambda_j^{(i)}\frac {\partial y^{(i)}}{\partial x_j}-Y(\mathbf x) \right)^2 \right]+\mu\left[\sum_{i=1}^n\omega^{(i)}-1 \right] \tag{8}$
令：
$\begin {cases} \frac {\partial L}{\partial \omega^{(k)}}=E\left[ 2\left(\sum_{i=1}^n\omega^{(i)}y^{(i)}+\sum_{j=1}^n\sum_{i=1}^n \lambda_j^{(i)}\frac {\partial y^{(i)}}{\partial x_j}-Y(\mathbf x)\right)y(\mathbf x^{(k)})\right]+\mu=0 \\ \frac {\partial L}{\partial \lambda_l^{(k)}}=E\left[ 2\left( \sum_{i=1}^n\omega^{(i)}y^{(i)}+\sum_{j=1}^n\sum_{i=1}^n\lambda_j^{(i)}-Y(\mathbf x) \right)\frac{\partial y^{(k)}}{\partial x_l^{(k)}} \right]=0 \\ \frac {\partial L}{\partial \mu}=\sum_{i=1}^n\omega^{(i)}-1=0 \end {cases} \tag {9}$
又：
$\begin {align} & E[Y(\mathbf x^{(i)})\cdot Y(\mathbf x^{(k)})]=\beta_0^2+\sigma^2R(\mathbf x^{(k)},\mathbf x^{(i)}) \\ & E\left[ \frac {\partial Y(\mathbf x^{(i)})}{\partial \mathbf x_j^{(i)}}\cdot Y(\mathbf x^{(k)}) \right]=\sigma^2\frac {\partial R (\mathbf x^{(k)},\mathbf x^{(i)})}{\partial \mathbf x_j^{(i)}} \\ &E\left[ Y(\mathbf x )\cdot Y(\mathbf x^{(k)}) \right]=\beta_0^2 +\sigma^2R(\mathbf x^{(k)},\mathbf x) \\ & E\left[ Y(\mathbf x^{(i)})\cdot\frac {\partial Y(\mathbf x^{(k)})}{\partial \mathbf x_l^{(k)}} \right]=\beta_0^2+\sigma^2 \frac {\partial R(\mathbf x^{(i)}, \mathbf x^{(k)})}{\partial \mathbf x_l^{(k)}} \\ & E\left[\frac {\partial Y(\mathbf x^{(i)})}{\partial \mathbf x_j^{(i)}} \cdot \frac {\partial Y(\mathbf x^{(k)})}{\partial \mathbf x_l^{(k)}} \right]=\beta_0^2+\sigma^2 \frac {\partial^2R(\mathbf x^{(i)},\mathbf x^{(k)})}{\partial \mathbf x_j^{(i)} \partial \mathbf x_l^{(k)}} \\ & E\left[ Y(\mathbf x)\cdot\frac {\partial Y(\mathbf x^{(k)})}{\partial \mathbf x_l^{(k)}} \right]=\beta_0^2 +\sigma^2\frac {R(\mathbf x^{(k)},\mathbf x)}{\partial \mathbf x_l^{(k)}} \end {align} \tag{10}$
代入式 (8) 可得：
$\begin {cases}\sum_{i=1}^n \omega^{(i)}R(\mathbf x^{(k)},\mathbf x^{(i)})+ \sum_{j=1}^{n}\sum_{i=1}^{n}\lambda_j^{(i)}\frac {\partial R(\mathbf x^{(k)},\mathbf x^{(i)})}{\partial \mathbf x_j^{(i)}}+\frac {\mu}{2\sigma^2}=R(\mathbf x^{(k)},\mathbf x) \\ \sum_{i=1}^n\omega^{(i)}y^{(i)}\frac {\partial R(\mathbf x^{(k)},\mathbf x^{(i)})}{\partial \mathbf x_l^{(k)}}+\sum_{j=1}^n\sum_{i=1}^n\lambda_j^{(i)} \frac {\partial ^2 R(\mathbf x^{(k)},\mathbf x^{(i)})}{\partial \mathbf x_l^{(k)}\partial \mathbf x_j^{(i)}}=\frac {\partial R(\mathbf x^{(k)},\mathbf x^{(i)})}{\partial \mathbf x_l^{(k)}} \\ \sum_{i=1}^n \omega^{(i)}=1 \end {cases} \tag{11}$
将上式改写为矩阵形式：
$\begin {bmatrix} \overline {\mathbf R} & \overline {\mathbf F} \\ \overline {\mathbf F}^T &0 \end {bmatrix}\begin{bmatrix} \boldsymbol \lambda \\ \widetilde \mu \end {bmatrix}=\begin {bmatrix} \overline {\mathbf r} \\ 1 \end {bmatrix} \tag {12}$
上式中：
$\overline {\mathbf R}=\begin {bmatrix} \mathbf R & \partial \mathbf R \\ \partial \mathbf R^T & \partial^2\mathbf R \end {bmatrix} \tag{13}$
其中， $\mathbf R$ 与 Kriging 模型中一致：
$\begin {align} & \mathbf R = \begin {bmatrix} R(\mathbf x^{(1)},\mathbf x^{(1)}) & \ldots & R(\mathbf x^{(1)},\mathbf x^{(n)})\\ \vdots & \ddots & \vdots \\ R(\mathbf x^{(n)},\mathbf x^{(1)}) & \ldots & R(\mathbf x^{(n)},\mathbf x^{(n)}) \end {bmatrix} \\ &\partial \mathbf R=\begin {bmatrix} \frac {\partial R(\mathbf x^{(1)},\mathbf x^{(1)})}{\partial \mathbf x_1^{(1)}} & \ldots & \frac {\partial R(\mathbf x^{(1)},\mathbf x^{(1)})}{\partial \mathbf x_m^{(1)}} & \ldots & \frac {\partial R(\mathbf x^{(1)},\mathbf x^{(n)})}{\partial \mathbf x_1^{(n)}} & \ldots & \frac {\partial R(\mathbf x^{(1)},\mathbf x^{(n)})}{\partial \mathbf x_1^{(n)}} \\ \vdots & \ddots & \vdots & \ddots & \vdots & \ddots & \vdots \\ \frac{\partial R(\mathbf x^{(n)},\mathbf x^{(1)})}{\partial \mathbf x_1^{(n)}} & \ldots & \frac {\partial R(\mathbf x^{(n)},\mathbf x^{(1)})}{\partial \mathbf x_m^{(n)}} & \ldots & \frac {\partial R(\mathbf x^{(n)},\mathbf x^{(n)})}{\partial \mathbf x_1^{(n)}} & \ldots & \frac {\partial R(\mathbf x^{(n)},\mathbf x^{(n)})}{\partial \mathbf x_m^{(n)}} \end {bmatrix} \\ & \partial^2 \mathbf R= \begin {bmatrix} \frac {\partial ^2 R(\mathbf x^{(1)},\mathbf x^{(1)})}{\partial (\mathbf x_1^{(1)})^2} & \ldots & \frac {\partial ^2 R(\mathbf x^{(1)},\mathbf x^{(1)})}{\partial \mathbf x_1^{(1)} \partial \mathbf x_m^{(1)}} & \ldots & \frac {\partial ^2 R(\mathbf x^{(1)},\mathbf x^{(1)})}{\partial \mathbf x_1^{(1)} \partial \mathbf x_1^{(n)}} & \ldots & \frac{\partial^2R(\mathbf x^{(1)},\mathbf x^{(n)})}{\partial \mathbf x_1^{(1)} \mathbf x_m^{(n)}} \\ \vdots & \ddots & \vdots & \ddots & \vdots & \ddots & \vdots \\ \frac {\partial ^2 R(\mathbf x^{(1)},\mathbf x^{(1)})}{\partial \mathbf x_m^{(1)}\partial \mathbf x_1^{(1)}} & \ldots & \frac {\partial ^2 R(\mathbf x^{(1)},\mathbf x^{(1)})}{ (\partial \mathbf x_m^{(1)})^2} & \ldots & \frac {\partial ^2 R(\mathbf x^{(1)},\mathbf x^{(n)})}{\partial \mathbf x_m^{(1)} \partial \mathbf x_1^{(n)}} & \ldots & \frac{\partial^2R(\mathbf x^{(1)},\mathbf x^{(n)})}{\partial \mathbf x_m^{(1)} \partial \mathbf x_m^{(n)}} \\ \vdots & \ddots & \vdots & \ddots & \vdots & \ddots & \vdots \\ \frac {\partial ^2 R(\mathbf x^{(n)},\mathbf x^{(1)})}{\partial \mathbf x_1^{(n)}\partial \mathbf x_1^{(1)}} & \ldots & \frac {\partial ^2 R(\mathbf x^{(n)},\mathbf x^{(1)})}{ \partial \mathbf x_1^{(n)}\partial \mathbf x_m^{(1)}} & \ldots & \frac {\partial ^2 R(\mathbf x^{(n)},\mathbf x^{(n)})}{ (\partial \mathbf x_1^{(n)})^2} & \ldots & \frac{\partial^2R(\mathbf x^{(n)},\mathbf x^{(n)})}{\partial \mathbf x_1^{(n)} \partial \mathbf x_m^{(n)}} \\ \vdots & \ddots & \vdots & \ddots & \vdots & \ddots & \vdots \\ \frac {\partial ^2 R(\mathbf x^{(n)},\mathbf x^{(1)})}{\partial \mathbf x_m^{(n)}\partial \mathbf x_1^{(1)}} & \ldots & \frac {\partial ^2 R(\mathbf x^{(n)},\mathbf x^{(1)})}{ \partial \mathbf x_m^{(n)}\partial \mathbf x_m^{(1)}} & \ldots & \frac {\partial ^2 R(\mathbf x^{(n)},\mathbf x^{(n)})}{ \partial \mathbf x_m^{(n)}\partial \mathbf x_1^{(n)}} & \ldots & \frac{\partial^2R(\mathbf x^{(n)},\mathbf x^{(n)})}{(\partial\mathbf x_m^{(n)})^2}\end {bmatrix} \end {align} \tag {14}$
式 (11) 中：
$\overline {\mathbf r}= \begin {bmatrix} \mathbf r \\ \partial \mathbf r \end {bmatrix} \tag {15}$
其中， $\mathbf r$ 与 Kriging 模型中一致：
$\begin {align} &\mathbf r = \begin {bmatrix} R(\mathbf x^{(1)},\mathbf x) & \ldots & R(\mathbf x^{(n)},\mathbf x) \end {bmatrix}^T \\ & \partial \mathbf r= \begin {bmatrix} \frac {\partial R(\mathbf x^{(1)},\mathbf x)}{\partial \mathbf x_1^{(1)}} & \ldots & \frac {\partial R(\mathbf x^{(1)},\mathbf x)}{\partial \mathbf x_m^{(1)}} & \ldots & \frac {\partial R(\mathbf x^{(n)},\mathbf x)}{\partial\mathbf x_1^{(n)}} & \ldots & \frac {\partial R(\mathbf x^{(n)},\mathbf x)}{\partial \mathbf x_m^{(n)}} \end {bmatrix}^T \end {align} \tag {16}$
式 (11) 中：
$\begin {align} & \boldsymbol \lambda=\begin {bmatrix} \omega^{(1)} & \ldots & \omega^{(n)} & \lambda_1^{(1)} &\ldots & \lambda_m^{(1)} & \lambda_1^{(n)} & \ldots & \lambda_m^{(n)} \end {bmatrix}^T \\ & \overline {\mathbf F}= [\underbrace{ 1 \ \ \ \ldots \ \ \ 1}_{n} \ \ \ \underbrace{0 \ \ \ \ldots \ \ \ 0}_{nm}]^T \in \R^{n+nm} \end {align} \tag{17}$
综上得到 GEK 模型的预测值为：
$\hat y(\mathbf x)=\begin {bmatrix} \overline {\mathbf r} \\ 1 \end {bmatrix}^T\begin {bmatrix}\overline {\mathbf R} & \overline {\mathbf F} \\ \overline {\mathbf F}^T & 0 \end {bmatrix} \begin {bmatrix} \mathbf y_s \\ 0 \end {bmatrix} =\beta_0 +\overline {\mathbf r}^T \overline {\mathbf R}^{-1}(\mathbf y_s-\beta_0\overline {\mathbf F}) \tag {18}$
上式中：
$\beta_0 = (\overline{\mathbf F}^T \overline{\mathbf R}^{-1}\overline{\mathbf F})^{-1}\overline{\mathbf F}^T \overline{\mathbf R}^{-1}\mathbf y_s \tag {19}$
预测的均方误差为：
$MSE[\hat y(\mathbf x)]=\sigma^2\left( 1 -\begin{bmatrix} \overline {\mathbf r} \\ 1 \end {bmatrix}^T\begin {bmatrix} \overline {\mathbf R} &\overline {\mathbf F} \\ \overline {\mathbf F}^T & 0 \end {bmatrix} \begin {bmatrix}\overline {\mathbf r}\\1 \end {bmatrix} \right)=\sigma^2 \left(1- \overline{\mathbf r}^T \overline {\mathbf R}^{-1} \overline {\mathbf r} +\frac {(1-\overline{\mathbf F}^T\overline {\mathbf R}^{-1}\overline {\mathbf r})^2}{\overline {\mathbf F}^T\overline {\mathbf R}^{-1}\overline {\mathbf F}} \right) \tag {20}$

梯度增强 Kriging 模型的相关函数，模型训练过程与Kriging模型十分相似，可以参考之前的博客文章(链接: link)，在此不再赘述。

参考文献

[1] HAN Z H, Görtz S, Zimmermann R. Improving Variable-fidelity Surrogate Modeling via Gradient-enhanced Kriging and a Generalized Hybrid Bridge Function[J]. Aerospace Science and Technology, 2013, 25(1):177-189.