贝叶斯优化是一种基于概率模型下的超参数调优方式。通过不断地添加样本点来更新目标函数的后验分布,从而更好的调整当前参数。由于贝叶斯优化在低维度下迭代次数少,速度快,对非凸问题稳健,因此常用于对提升树的参数优化。贝叶斯优化包含高斯过程回归和贝叶斯开发探索两个过程。
高斯过程回归
相比于传统获取后验分布模型,高斯过程考虑到
y
N
y_N
yN与
y
N
+
1
y_{N+1}
yN+1的关系即:
p
(
y
N
+
1
∣
X
N
+
1
,
y
N
)
\begin{align} p\left(y_{N+1} \mid X_{N+1}, y_{N}\right) \end{align}
p(yN+1∣XN+1,yN)
高斯过程通过假设
Y
Y
Y服从联合正态分布来考虑
y
N
y_N
yN和
y
N
+
1
y_{N+1}
yN+1之间的关系:
[
y
1
y
2
…
y
n
]
∼
N
(
0
,
[
k
(
x
1
,
x
1
)
,
k
(
x
1
,
x
2
)
,
…
,
k
(
x
1
,
x
n
)
k
(
x
2
,
x
1
)
,
k
(
x
2
,
x
2
)
,
…
,
k
(
x
2
,
x
n
)
…
k
(
x
n
,
x
1
)
,
k
(
x
n
,
x
2
)
,
…
,
k
(
x
n
,
x
n
)
]
)
\begin{align} \left[\begin{array}{c} y_{1} \\ y_{2} \\ \ldots \\ y_{n} \end{array}\right] \sim N\left(\mathbf{0},\left[\begin{array}{c} k\left(x_{1}, x_{1}\right), k\left(x_{1}, x_{2}\right), \ldots, k\left(x_{1}, x_{n}\right) \\ k\left(x_{2}, x_{1}\right), k\left(x_{2}, x_{2}\right), \ldots, k\left(x_{2}, x_{n}\right) \\ \ldots \\ k\left(x_{n}, x_{1}\right), k\left(x_{n}, x_{2}\right), \ldots, k\left(x_{n}, x_{n}\right) \end{array}\right]\right) \end{align}
⎣
⎡y1y2…yn⎦
⎤∼N⎝
⎛0,⎣
⎡k(x1,x1),k(x1,x2),…,k(x1,xn)k(x2,x1),k(x2,x2),…,k(x2,xn)…k(xn,x1),k(xn,x2),…,k(xn,xn)⎦
⎤⎠
⎞
其中协方差矩阵为核矩阵,仅与特征
x
x
x有关。将
Y
Y
Y服从高维高斯分布作为先验条件,根据训练集得到最优核矩阵,从而得到后验分布:
p
(
y
∗
∣
y
∼
N
(
K
∗
K
−
1
y
,
K
∗
∗
−
K
∗
K
−
1
K
∗
T
)
\begin{align} p\left(y_{*} \mid \mathbf{y} \sim N\left(K_{*} K^{-1} \mathbf{y}, K_{* *}-K_{*} K^{-1} K_{*}^{T}\right)\right. \end{align}
p(y∗∣y∼N(K∗K−1y,K∗∗−K∗K−1K∗T)
贝叶斯优化
通过高斯过程回归对目标函数建模,得到其后验分布后,需要抽样进行样本计算,而贝叶斯优化很容易在局部最优解上不断采样,为了保证开发和探索之间的权衡。需要使用Acquisition Function寻求下一个
x
x
x的函数。其中POI函数是一种主流的选择方式:
POI
(
X
)
=
P
(
f
(
X
)
≥
f
(
X
+
)
+
ξ
)
=
Φ
(
μ
(
x
)
−
f
(
X
+
)
−
ξ
σ
(
x
)
)
\operatorname{POI}(X)=P\left(f(X) \geq f\left(X^{+}\right)+\xi\right)=\Phi\left(\frac{\mu(x)-f\left(X^{+}\right)-\xi}{\sigma(x)}\right)
POI(X)=P(f(X)≥f(X+)+ξ)=Φ(σ(x)μ(x)−f(X+)−ξ)
其中
f
(
X
)
f(X)
f(X)为
X
X
X的目标函数值,
f
(
X
+
)
f(X^{+})
f(X+)为当前目标函数最优值,
u
(
x
)
,
σ
(
x
)
u\left( x \right) ,\sigma \left( x \right)
u(x),σ(x)分别为高斯过程所得到的目标函数的均值和方差。贝叶斯优化即不断尝试新的
X
X
X使得
P
O
I
(
X
)
POI(X)
POI(X)最大