高斯过程是对函数的概率分布进行建模,给定数据
(
X
,
Y
)
(\mathbf{X}, \mathbf{Y})
(X,Y) , 高斯过程便是得到从空间
X
\mathbf{X}
X 到空间
y
\mathbf{y}
y 的概率性映射,假设
f
f
f 为所需求得的函数分布,考虑到存在一定的噪声干扰,则从
X
\mathbf{X}
X 到
y
\mathbf{y}
y 的概率性映射可表示为:
y
=
f
(
X
)
+
ϵ
,
ϵ
∼
N
(
0
,
β
−
1
I
)
\mathbf{y}=f(\mathbf{X})+ \boldsymbol{\epsilon}, \boldsymbol{\epsilon} \sim \mathcal{N}\left(\mathbf{0}, \beta^{-1} \mathbf{I}\right)
y=f(X)+ϵ,ϵ∼N(0,β−1I) 该公式中涉及两个映射过程,先是从
X
\mathbf{X}
X 到函数
F
\mathbf{F}
F 的映射,后是
F
\mathbf{F}
F 到
Y
\mathbf{Y}
Y 的映射。而高斯过程主要专注于第一个映射过程,这两个概率性映射可由以下高斯分布表示:
F
∣
X
∼
N
(
0
,
K
(
X
,
X
)
)
\mathbf{F} \mid \mathbf{X} \sim \mathcal{N}(\mathbf{0}, K(\mathbf{X}, \mathbf{X}))
F∣X∼N(0,K(X,X))
Y
∣
F
∼
N
(
F
,
β
−
1
I
N
)
\mathbf{Y} \mid \mathbf{F} \sim \mathcal{N}\left(\mathbf{F}, \beta^{-1} \mathbf{I}_{N}\right)
Y∣F∼N(F,β−1IN) 其中
K
(
X
,
X
)
K(\mathbf{X}, \mathbf{X})
K(X,X) 是高斯过程的核函数,衡量各
X
\mathbf{X}
X之间的两两相互关系。
则由
X
\mathbf{X}
X 到
y
\mathbf{y}
y 的概率映射可表示为:
p
(
y
∣
X
)
=
∫
p
(
y
∣
f
)
p
(
f
∣
X
)
d
f
p(\mathbf{y}\mid\mathbf{X})=\int p(\mathbf{y} \mid \mathbf{f}) p(\mathbf{f} \mid \mathbf{X}) d \mathbf{f}
p(y∣X)=∫p(y∣f)p(f∣X)df 现在我们给定测试数据
X
∗
\mathbf{X}^{*}
X∗, 要求其所对应的预测值
y
∗
\mathbf{y}^{*}
y∗, 其公式为:
p
(
y
∗
∣
X
∗
,
X
,
y
)
=
∫
p
(
y
∗
∣
f
∗
)
p
(
f
∗
∣
X
∗
,
X
,
y
)
d
f
p(\mathbf{y}^{*}\mid\mathbf{X}^{*}, \mathbf{X}, \mathbf{y})=\int p(\mathbf{y}^{*} \mid \mathbf{f}^{*}) p(\mathbf{f}^{*} \mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}) d \mathbf{f}
p(y∗∣X∗,X,y)=∫p(y∗∣f∗)p(f∗∣X∗,X,y)df 其中
p
(
y
∗
∣
f
∗
)
p\left(\mathbf{y}^{*}\mid \mathbf{f}^{*}\right)
p(y∗∣f∗) 已知,
p
(
f
∗
∣
X
∗
,
X
,
y
)
p\left(\mathbf{f}^{*}\mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}\right)
p(f∗∣X∗,X,y) 为未知量,由于:
[
f
f
∗
]
∼
N
(
0
,
[
K
(
X
,
X
)
K
(
X
,
X
∗
)
K
(
X
∗
,
X
)
K
(
X
∗
,
X
∗
)
]
)
\left[\begin{array}{l}\mathbf{f} \\\mathbf{f}^{*}\end{array}\right] \sim \mathcal{N}\left(\mathbf{0},\left[\begin{array}{ll}K(\mathbf{X}, \mathbf{X}) & K\left(\mathbf{X}, \mathbf{X}^{*}\right) \\K\left(\mathbf{X}^{*}, \mathbf{X}\right) & K\left(\mathbf{X}^{*}, \mathbf{X}^{*}\right)\end{array}\right]\right)
[ff∗]∼N(0,[K(X,X)K(X∗,X)K(X,X∗)K(X∗,X∗)]) 所以:
p
(
f
∗
∣
X
∗
,
X
,
y
)
∼
N
(
K
(
X
∗
,
X
)
K
(
X
,
X
)
−
1
f
,
K
(
X
∗
,
X
∗
)
−
K
(
X
∗
,
X
)
K
(
X
,
X
)
−
1
K
(
X
,
X
∗
)
)
\begin{aligned} p\left(\mathbf{f}^{*} \mid \mathbf{X}^{*}, \mathbf{X}, \mathbf{y}\right) \sim \mathcal{N}(& K\left(\mathbf{X}^{*}, \mathbf{X}\right) K(\mathbf{X}, \mathbf{X})^{-1} \mathbf{f}, \\ &\left.K\left(\mathbf{X}^{*}, \mathbf{X}^{*}\right)-K\left(\mathbf{X}^{*}, \mathbf{X}\right) K(\mathbf{X}, \mathbf{X})^{-1} K\left(\mathbf{X}, \mathbf{X}^{*}\right)\right) \end{aligned}
p(f∗∣X∗,X,y)∼N(K(X∗,X)K(X,X)−1f,K(X∗,X∗)−K(X∗,X)K(X,X)−1K(X,X∗)) 上式的证明可参考《Pattern Recognition and Machine Learning》一书中的”条件高斯分布”章节。
高斯过程(Gaussian Process)
最新推荐文章于 2024-07-05 21:31:38 发布