分层Kriging模型理论相关推导

月下香

已于 2023-01-31 17:31:43 修改

阅读量1.6k

点赞数 1

分类专栏：优化算法文章标签：算法

于 2023-01-23 22:50:34 首次发布

本文链接：https://blog.csdn.net/sengyuweiyanga/article/details/128754588

版权

优化算法专栏收录该内容

7 篇文章 14 订阅

订阅专栏

本文介绍了分层Kriging(HK)模型在处理变可信度优化问题中的理论和方法。通过建立低可信度和高可信度的代理模型，HK模型能有效提高建模效率。首先，基于低可信度数据建立Kriging模型，然后将其作为高可信度模型的趋势项，结合高可信度样本建立最终的代理模型。模型的预估值和均方差的计算展示了该方法的数学基础。

摘要由CSDN通过智能技术生成

03 分层Kriging代理模型理论的相关推导

3.1 代理模型问题的基本描述
3.2 HK 模型及其预估值
- 3.2.1 首先针对低可信度样本点建立Kriging代理模型
- 3.2.2 建立分层代理模型
参考文献

分层Kriging(Hierarchical Kriging, HK)模型是一种简单实用的变可信度代理模型，分两层或多层建立代理模型，本文以两层模型为例对分层代理模型理论进行推导。

3.1 代理模型问题的基本描述

对于一个有 $m$ 个设计变量的优化问题，在设计空间中同时进行高可信度分析和低可信度抽样，以建立所谓变可信度模型，变可信代理模型在达到相同近似精度的条件下，可以显著提高建立代理模型的效率。设高、低可信度分析程序的抽样位置分别为：
$\begin {cases} \mathbf S_1=[\mathbf x_1^{(1)} \ \ \mathbf x_1^{(2)} \ \ \ldots \ \ \mathbf x_1^{(n_1)}]^T\in\R^{n_1\times m} \\ \mathbf S_2=[\mathbf x_2^{(1)} \ \ \mathbf x_2^{(2)} \ \ \ldots \ \ \mathbf x_2^{(n_2)}]^T\in \R^{n_2 \times m} \end {cases} \tag{1}$
上式中，下标 “1” 和 “2” 分别代表高、低可信度，例如 $n_1$ 和 $n_2$ 分别代表高、低可信度样本点数（可合理假设 $n_2\gg n_1$ ）。相应的目标函数或约束函数响应值为：
$\begin {cases} \mathbf y_1=[y_1^{(1)} \ \ y_1^{(2)} \ \ \ldots \ \ y_1^{(n_1)}]^T\in\R^{n_1} \\ \mathbf y_2=[y_2^{(1)} \ \ y_2^{(2)} \ \ \ldots \ \ y_2^{(n_2)}]^T\in\R^{n_2} \end {cases} \tag{2}$
分层代理模型首先在低可信度样本数据 $(\mathbf S_2,y_2)$ 的基础上建立 Kriging 模型 $\hat y_2$ ，然后以 $\hat y_2$ 为全局趋势模型，在高可信度样本数据集 $(\mathbf S_1,y_1)$ 基础上建立所需的代理模型 $\hat y_1$ 。

3.2 HK 模型及其预估值

3.2.1 首先针对低可信度样本点建立Kriging代理模型

首先基于低可信度数据来建立低可信度代理模型以辅助预测，针对低可信度模型假设高斯静态随机过程：
$Y_{lf}(\mathbf x)=\beta_{0,lf}+Z_{lf}(\mathbf x) \tag{3}$
参照 Kriging 模型建立过程，可得低可信度模型表达式：
$\hat y_{lf}(\mathbf x)=\beta_{0,lf}+\mathbf r_{lf}^T(\mathbf x)\mathbf R_{lf}^{-1}(\mathbf y_{s,lf}-\beta_{0,lf}\mathbf F_1) \tag{4}$
上式中， $\beta_{0,lf}=(\mathbf F_1^T\mathbf R_{lf}^{-1}\mathbf F_1)^{-1}\mathbf F_1^T\mathbf R_{lf}^{-1}\mathbf y_{s,lf}$ ； $\mathbf R_{lf}\in\R^{n_{lf}\times n_{lf}}$ 是现有的低可信度样本点组成的相关矩阵； $\mathbf F_1$ 是全为1的列向量； $\mathbf r_{lf}\in \R^{n_{lf}}$ 是任意点 $\mathbf x$ 与已知样本点间的相关矢量。

3.2.2 建立分层代理模型

不同于Cokriging 模型，将低可信度数据建立的代理模型作为趋势项，将高可信度函数视为下述高斯静态随机过程的具体实现：
$Y(\mathbf x)=\beta_0 \hat y_{lf}(\mathbf x)+Z(\mathbf x) \tag {5}$
将 $\hat y_{lf}(\mathbf x)$ 乘以缩放系数 $\beta_0$ 作为全局趋势模型， $Z(\mathbf x)$ 是均值为零、方差为 $\sigma ^2$ 的静态随机过程。在设计空间不同位置处，这些随机变量存在一定的相关性（协方差），表示为：
$Cov[Z(\mathbf x),Z(\mathbf x')]=\sigma^2R(\mathbf x, \mathbf x') \tag{6}$
上式中， $R(\mathbf x,\mathbf x')$ 是相关函数，它是 $\mathbf x$ 和 $\mathbf x'$ 间欧几里德距离的函数，将高可信度函数视为已知高可信度样本点的线性加权，即：
$\hat y(\mathbf x)=\boldsymbol \omega^T\mathbf y_s \tag{7}$
上式中， $\boldsymbol \omega=\begin {bmatrix} \omega^{(1)} & \omega^{(2)} & \ldots \omega^{(n)} \end {bmatrix}^T$ 是高可信度样本点的加权系数向量，用 $\mathbf Y_s=\begin {bmatrix} Y^{(1)} & Y^{(2)} & \ldots & Y^{(n_1)} \end {bmatrix}$ 代替 $\mathbf y_s=\begin {bmatrix}y^{(1)} & y^{(2)} &\ldots & y^{(n)} \end {bmatrix}$ 。寻找最优加权系数 $\boldsymbol \omega$ 使得均方差最小：
$MSE[\hat y(\mathbf x)]=E[(\boldsymbol \omega^T\mathbf Y_s-Y(\mathbf x))^2] \tag{8}$
并满足无偏约束：
$E[\boldsymbol \omega^T \mathbf Y_s]=E[Y(\mathbf x)] \tag{9}$
对上式化简得：

以下推导过程要注意，应将 $\hat y_{lf}(\mathbf x)$ 视为由低可信度代理模型得出的值，代入到高可信度模型后则应视为常值（此常值在设计空间不同点处的值不同）

$\sum_{i=1}^{n_1}\omega^{(i)}\hat y_{lf}(\mathbf x_1^{(i)}) =\hat y_{lf}(\mathbf x) \tag{10}$

采用拉格朗日乘数法，令：
$L(\boldsymbol \omega, \mu)=E[(\boldsymbol \omega^T\mathbf Y_s-Y(\mathbf x))^2] + \mu(\sum \omega^{(i)}\hat y_{lf}(\mathbf x_1^{(i)})-\hat y_{lf}(\mathbf x) ) \tag {11}$
令：
$\begin {align} \frac {\partial L(\boldsymbol \omega,\mu)}{\partial \omega^{(i)}} &= 2E[(\boldsymbol \omega^T\mathbf Y_s-Y(\mathbf x))Y_s(\mathbf x_1^{(i)})] +\mu\hat y_{lf}(\mathbf x_1^{(i)}) \\ &= 2\{\sum_{j=1}^{n_1}\omega^{(j)}[\beta_0^2\hat y_{lf}(\mathbf x_1^{(i)})\hat y_{lf}(\mathbf x_1^{(j)})+\sigma^2R(\mathbf x_1^{(i)},\mathbf x_1^{(j)})]-[\beta_0^2\hat y_{lf}(\mathbf x)\hat y_{lf}(\mathbf x_1^{(i)})\}+\sigma^2R(\mathbf x_1^{(i)},\mathbf x)]+\mu \hat y_{lf}(\mathbf x_1^{(i)}) \\ &= 2\sigma^2\sum_{j=1}^{n_1}\omega^{(j)}R(\mathbf x_1^{(i)},\mathbf x_1^{(j)})-2\sigma^2R(\mathbf x_1^{(i)},\mathbf x)+\mu\hat y_{lf}(\mathbf x_1^{(i)}) \\ &=0 \end {align} \tag{12}$
则：
$\begin {cases} \sum_{j=1}^{n_1}\omega^{(j)}R(\mathbf x_1^{(i)},\mathbf x_1^{(j)}) + \frac {\mu \hat y_{lf}(\mathbf x_1^{(i)})}{2\sigma^2}=R(\mathbf x_1^{(i)},\mathbf x) \\ \sum_{i=1}^{n_1}\omega^{(i)}\hat y_{lf}(\mathbf x_1^{(i)})=\hat y_{lf}(\mathbf x) \end {cases} \tag{13}$
写成矩阵形式为：
$\begin {bmatrix}\mathbf R & \mathbf F \\ \mathbf F^T & 0\end {bmatrix}\begin {bmatrix} \boldsymbol \omega \\ \hat \mu \end {bmatrix} =\begin {bmatrix} \mathbf r \\ \hat y_{lf}(\mathbf x) \end {bmatrix} \tag{14}$
上式中：
$\begin {align} & \mathbf F=[\hat y_{lf}(\mathbf x_1^{(1)}),\ldots,\hat y_{lf}(\mathbf x_1^{(n_1)})]^T, \ \ \ \ \hat \mu=\mu /(2\sigma^2) \\ & \mathbf R =(R(\mathbf x_1^{(i)},\mathbf x_1^{(j)}))_{i,j}\in \R^{n_1 \times n_1}, \ \ \ \ \mathbf r=(R(\mathbf x_1^{(i)},\mathbf x))_i \in \R^{n_1} \end {align} \tag {15}$
则：
$\begin {bmatrix} \boldsymbol \omega^T & \hat \mu \end {bmatrix}= \left(\begin {bmatrix} \mathbf R & \mathbf F \\ \mathbf F^T & 0 \end {bmatrix}^{-1} \begin {bmatrix} \mathbf r \\ \hat y_{lf}(\mathbf x) \end {bmatrix} \right)^T=\begin {bmatrix} \mathbf r \\ \hat y_{lf}(\mathbf x) \end {bmatrix}^T \begin {bmatrix} \mathbf R & \mathbf F \\ \mathbf F^T & 0 \end {bmatrix}^{-1} \tag{16}$
则设计空间任意未知点 $\mathbf x$ 处预测的响应值为：
$\hat y(\mathbf x) =\begin {bmatrix} \boldsymbol \omega^T & \hat \mu \end {bmatrix} \begin {bmatrix} \mathbf y_s \\ 0 \end {bmatrix} =\begin {bmatrix} \mathbf r \\ \hat y_{lf}(\mathbf x) \end {bmatrix}^T \begin {bmatrix}\mathbf R & \mathbf F \\ \mathbf F^T & 0 \end {bmatrix}^{-1}\begin {bmatrix} \mathbf y_s \\ 0 \end {bmatrix} \tag {17}$

由分块矩阵求逆公式，有：
$\begin {bmatrix} \mathbf R & \mathbf F \\ \mathbf F ^T & 0\end {bmatrix} ^{-1} = \begin{bmatrix} \mathbf R^{-1}-\mathbf R^{-1}\mathbf F(\mathbf F^T \mathbf R^{-1}\mathbf F)^{-1}\mathbf F^{T}\mathbf R^{-1} & \mathbf R^{-1} \mathbf F(\mathbf F^T \mathbf R^{-1} \mathbf F)^{-1} \\ (\mathbf F^T \mathbf R^{-1} \mathbf F)^{-1}\mathbf F^T\mathbf R^{-1} & -(\mathbf F^T\mathbf R^{-1} \mathbf F)^{-1}\end {bmatrix} \tag{18}$
将上式代入式 (16) 并化简得：
$\begin {align} \hat y(\mathbf x) &= [\mathbf r^T\mathbf R^{-1} - \mathbf r^T \mathbf R ^{-1}\mathbf F(\mathbf F^T\mathbf R^{-1}\mathbf F)^{-1}\mathbf F^T\mathbf R^{-1} +\hat y_{lf}(\mathbf x)(\mathbf F^T\mathbf R^{-1}\mathbf F)^{-1}\mathbf F^T \mathbf R^{-1}]\mathbf y_s \\ &=\beta_0\hat y_{lf}(\mathbf x)+\mathbf r^T(\mathbf x)\mathbf R^{-1}(\mathbf y_s -\beta_0\mathbf F) \end {align} \tag{19}$
上式中： $\beta_0=(\mathbf F^T\mathbf R^{-1}\mathbf F)^{-1}\mathbf F^T\mathbf R^{-1}\mathbf y_s$ 是放缩系数， $V_{HK}=\mathbf R^{-1}(\mathbf y_s-\beta_0\mathbf F)$ 只与已知样本点数据有关，可以在模型训练结束后一次性计算并存储。之后，预测任意 $\mathbf x$ 处的响应值只需要计算 $\mathbf r(\mathbf x)$ 与 $\mathbf V_{HK}$ 间的点乘。

分层Kriging模型给出的预估值的均方差为：

$\begin {align} MSE[\hat y(\mathbf x)] & =E[(\boldsymbol \omega ^T\mathbf Y_s-\mathbf Y(\mathbf x))^2]\\ & =E[(\boldsymbol \omega ^T\mathbf Y_s-\mathbf Y(\mathbf x))(\boldsymbol \omega ^T\mathbf Y_s-\mathbf Y(\mathbf x))]\\ & = \sigma ^2(\boldsymbol \omega^T\mathbf R \boldsymbol \omega - 2\boldsymbol \omega^T\mathbf r + 1) \\ & =\sigma^2[\boldsymbol \omega^T(\mathbf R\boldsymbol \omega+\mathbf F\hat \mu)-\boldsymbol \omega^T\mathbf F\hat \mu - 2\boldsymbol \omega^T\mathbf r + 1] \\ & = \sigma ^2[\boldsymbol \omega^T\mathbf r-\boldsymbol \omega^T\mathbf F\hat\mu-2\boldsymbol \omega^T\mathbf r + 1] \\ & =\sigma ^2[1-\boldsymbol \omega^T \mathbf r-\boldsymbol \omega^T \mathbf F\hat\mu] \\ &=\sigma ^2[1-[\boldsymbol \omega ^T \ \ \hat \mu]\begin {bmatrix}\mathbf r \\ \boldsymbol y_{lf}(\mathbf x) \end {bmatrix}]\\&= \sigma ^2[1-\begin {bmatrix} \mathbf r \\ y_{lf}(\mathbf x)\end {bmatrix}^T\begin{bmatrix} \mathbf R &\mathbf F \\ \mathbf F^T & 0 \end {bmatrix}^{-1}\begin {bmatrix}\mathbf r \\ \boldsymbol y_{lf}(\mathbf x) \end {bmatrix}] \\ &=\sigma^2 \{ 1.0-\mathbf r^T\mathbf R^{-1}\mathbf r+[\mathbf r^T\mathbf R^{-1}\mathbf F-\hat y_{lf}(\mathbf x)](\mathbf F^T\mathbf R^{-1}\mathbf F)^{-1}[\mathbf r^T\mathbf R^{-1}\mathbf F-\hat y_{lf}(\mathbf x)]^T \} \end {align} \tag {20}$