前面的文章大致描述了基于高斯过程(GP)贝叶斯优化的原理框架,该框架中也存在了几个参数,本篇文章简单介绍如何对他们进行估计。
首先介绍一下贝叶斯优化框架的超参数有哪些:
回忆我们将高斯过程表述为以下形式:
\[f ( x ) \sim G P \left( m ( x ) , k \left( x , x ^ { \prime } \right) \right)\]
其中$m(x)$表示均值函数,一般都设为0,不需要更新,我们更关心的是核函数k,核函数的选取主要有两种:squared exponential kernel以及Matern kernel
下面给出两种核函数的具体形式:
squared exponential kernel:
\[k \left( \mathbf { x } _ { i } , \mathbf { x } _ { j } \right) = \exp \left( - \frac { 1 } { 2 } \left( \mathbf { x } _ { i } - \mathbf { x } _ { j } \right) ^ { T } \operatorname { diag } ( \boldsymbol { \theta } ) ^ { - 2 } \left( \mathbf { x } - \mathbf { x } ^ { \prime } \right) \right)\]
其中$\operatorname { diag }\boldsymbol( { \theta })$表示对角阵
Matern kernel:
\[k \left( \mathbf { x } _ { i } , \mathbf { x } _ { j } \right) = \frac { 1 } { 2 ^ { < -