- 本文参考《PRML》,并加入了一些自己的理解,如有错误恳请指出。
1 前言
1.1 怎么理解高斯过程?高斯过程和随机过程的关系是什么?
- 高斯分布:随机变量服从高斯分布,意味着在当前时刻,该随机变量可能取的值服从高斯分布,但它只能从分布中取一个!
- 随机过程:在一条时间线上,或一个数据集中,随机变量在每个位置上服从一定的分布,但在每一个位置只能取一个值,假设共有m个时间点(或数据集容量为m),则一共会产生m个取值结果,这m个取值结果便称为一个过程,因为在每一个点的取值是随机的,因此称为随机过程。我们用联合概率分布来描述随机过程:
p ( x 1 = t 1 , x 2 = t 2 , . . . , x m = t m ) = p ( x 1 = t 1 ) p ( x 2 = t 2 ) . . . p ( x m = t m ) p(x^1=t_1,x^2=t_2,...,x^m=t_m)=p(x^1=t_1)p(x^2=t_2)...p(x^m=t_m) p(x1=t1,x2=t2,...,xm=tm)=p(x1=t1)p(x2=t2)...p(xm=tm) - 高斯过程:对于一个随机过程,如果随机变量在每个位置服从的分布是高斯分布,那该随机过程就称为高斯过程;但在高斯过程中,对于m个随机变量产生的结果 x = { x 1 , x 2 , . . . , x m } \mathbf{x}=\{x^1,x^2,...,x^m\} x={ x1,x2,...,xm},我们不再使用联合概率分布来描述,而是使用多维高斯分布的二阶统计量来描述: E [ x ] ∈ R m \mathbb{E}[\mathbf{x}]\in\mathbb{R}^m E[x]∈Rm 和 c o v [ x ] ∈ R m × m cov[\mathbf{x}]\in \mathbb{R}^{m\times m} cov[x]∈Rm×m;
1.2 贝叶斯线性回归与高斯过程
-
在贝叶斯线性回归问题中,我们建立了如下模型:
y ( x ) = w T Φ ( x ) , Φ ( x ) ∈ R n , w ∈ R n (1.2.1) y(x)=w^T\Phi(x),\quad\Phi(x)\in R^n,w\in R^n\tag{1.2.1} y(x)=wTΦ(x),Φ(x)∈Rn,w∈Rn(1.2.1)
参数 w w w服从一个高斯先验分布:
p ( w ) = N ( w ∣ 0 , α − 1 I n × n ) (1.2.2) p(w)=\mathcal{N}(w|0,\alpha^{-1}I^{n\times n})\tag{1.2.2} p(w)=N(w∣0,α−1In×n)(1.2.2) -
因此对于一个数据集 x = { x 1 , x 2 , . . . , x m } \mathbf{x}=\{x^1,x^2,...,x^m\} x={ x1,x2,...,xm},模型的输出 y = [ y 1 , y 2 , . . . , y m ] T \mathbf{y}=[y^1,y^2,...,y^m]^T y=[y1,y2,...,ym]T (注意这里的模型的输出不是数据集中的标签或目标值,这里只描述了一个线性高斯模型的输出,并没有描述噪声)服从 m m m维高斯分布:
y = Φ w = ( Φ ( x 1 ) T . . . Φ ( x m ) T ) m × n ⋅ ( w 1 . . . w n ) n × 1 = ( y 1 . . . y m ) m × 1 ∼ N ( E [ y ] , c o v [ y ] ) (1.2.3) \mathbf{y}=\Phi w=\left( \begin{matrix} \Phi(x^1)^T\\ ...\\ \Phi(x^m)^T \end{matrix} \right)_{m\times n}\cdot\quad\left( \begin{matrix} w_1\\ ...\\ w_n \end{matrix} \right)_{n\times 1}=\left( \begin{matrix} y^1\\ ...\\ y^m \end{matrix} \right)_{m\times 1}\sim\mathcal{N}(\mathbb{E}[\mathbf{y}],cov[\mathbf{y}])\tag{1.2.3} y=Φw=⎝⎛Φ(x1)T...Φ(xm)T⎠⎞m×n⋅⎝⎛w1...wn⎠⎞n×1=⎝⎛y1...ym⎠⎞m×1∼N(E[y],cov[y])(1.2.3)
其中:
E [ y ] = Φ E [ w ] = 0 ∈ R m \mathbb{E}[\mathbf{y}]=\Phi\mathbb{E}[\mathbf{w}]=\mathbf{0}\in \mathbb{R}^m E[y]=ΦE[w]=0∈Rm
c o v [ y ] = 1 α Φ Φ T = K ∈ R m × m cov[\mathbf{y}]=\frac{1}{\alpha}\Phi\Phi^T=K\in \mathbb{R}^{m\times m} cov[y]=α1ΦΦT=K∈Rm×m
其中 K K K是Gram矩阵:
K i j = k ( x i , x j ) = 1 α Φ ( x i ) T Φ ( x j ) , i , j ∈ [ 1 , m ] K_{ij}=k(x^i,x^j)=\frac{1}{\alpha}\Phi(x^i)^T\Phi(x^j),\quad i,j\in[1,m] Kij=k(xi,xj)=α1Φ(xi)TΦ(xj),i,j∈[1,m]
k ( x i , x j ) k(x^i,x^j) k(xi,xj)称为核函数; -
因此,模型的输出 y = [ y 1 , y 2 , . . . , y m ] T \mathbf{y}=[y^1,y^2,...,y^m]^T y=[y1,y2,...,ym]T 可以看作一个高斯过程;
1.3 贝叶斯线性回归与高斯过程:二维场景举例 (看懂了可以跳过这一节)
-
考虑简单的二维场景: x = { x 1 , x 2 , x 3 } = { 1 , 2 , 3 } , Φ = [ Φ ( 1 ) T Φ ( 2 ) T Φ ( 3 ) T ] 3 × 2 = [ 1 1 1 2 1 3