多元高斯分布是非参_高斯过程说它是非参数模型,这点怎么理解?

看了楼上wiki链接推荐,感觉自己应该修改一下回答In statistics, the term "non-parametric statistics" has at least two different meanings:

1. The first meaning of non-parametric covers techniques that do not rely on data belonging to any particular distribution.

2. The second meaning of non-parametric covers techniques that do not assume that the structure of a model is fixed. Typically, the model grows in size to accommodate the complexity of the data. In these techniques, individual variables are typically assumed to belong to parametric distributions, and assumptions about the types of connections among variables are also made. These techniques include, among others:b) non-parametric hierarchical Bayesian models, such as models based on the Dirichlet process, which allow the number of latent variables to grow as necessary to fit the data, but where individual variables still follow parametric distributions and even the process controlling the rate of growth of latent variables follows a parametric distribution.

Non-parametric models differ from parametric models in that the model structure is not specified a priori but is instead determined from data. The term non-parametric is not meant to imply that such models completely lack parameters but that the number and nature of the parameters are flexible and not fixed in advance.

对于Gaussian process regression, 我想这应该是属于第二点。

下面看一下一般的regression,

equation?tex=y+%3D+f%28x%29+%2B%5Cvarepsilon+

我们一般给定误差

equation?tex=%5Cvarepsilon+服从一个标准(多维)正态分布,而对于一般的线性模型,则给定

equation?tex=f%28x%29+%3D+x%27w

若此时我们关心的是对回归的系数

equation?tex=w, 一旦确定了

equation?tex=w整个模型就已经确定了,因而普遍认为是这是参数化的模型。当然若是此时,我们对f(x)所有的样本点进行假设,来自正态样本(未知均值和方差),且随机误差仍然是满足白噪声,那么此时模型毫无疑问仍然是参数化的,因为只要对其进行均值和方差的估计,模型也立刻被确定。

再回到Gaussian process regression,不失一般性地从的functional space view看,我们的假定是f满足一个GP。注意这里假定的f是一个随机过程,而不是具体的分布。

这里的每一条曲线都是给定确定参数的mean和kernel的GP 的一个sample,。图中画了给定mean:

equation?tex=%5Cmu%28x%29+%3D+0, k = SE with

equation?tex=%5Csigma%5E2+%3D+1,

equation?tex=%5Ctheta+%3D+0.2 的10个samples, 并且每一个sample都是由100点画出来来的曲线。

实际上,我们假定的是一组观测值来自某一个确定的高斯过程(mean, kernel里面的参数未知)的一个sample上的一组点(一个sample上也有无穷多个点实际上)。然而当我们给定一组观测点的时候,其实并不能唯一确定这个组点来自哪个高斯过程(因为过这有限个点的高斯过程仍然有无穷多个)

但是,模型不用被唯一确定并不意味着没有意义,我们仍然可以根据相关的高斯过程与高斯分布的一些性质,在通过学习找到最有可能的高斯过程(当然根据mean, kernel确定性定理,其实也就是得到mean和kernel里面的参数),然后就可以对未知的一些情况进行prediction。再回过头来,宏观的看看GPR模型。事实上,我们现在知道就是这一系列的x 和f(X). 对应到图上,实际上我们有的是一系列的点,我们要做什么?去找到经过这些点的最有可能的GP中的一个sample, 因为其实经过这有限个点的GP的sample仍然是无限多个。至于这个寻找的过程就是所谓的learning或者实际来讲就是后面要说的integral evaluation(其中可以是参数估计的方法也可以是MCMC的方法)。一旦找到了,那也就意味着这个GP对应的mean 和kernel也知道了,实际的来说就是mean 和kernel里面的undetermined parameter被学习得出了。那之后的预测就不成问题了。

因此按照上述所说,一个不是能被参数唯一确定的模型自然应该是非参数模型了,尽管它的模型中仍然有确定的分布和参数个数。所以,GP之所以是非参的方法是因为它参数估计没有完全确定模型(当然后面讲的,其实压根不需要参数估计事实上。)

不过有些学者也认为这是参数统计与非参数统计之间并没有泾渭分明的界线[4]。比如,我们在一般的回归模型上去掉误差假设,对随机误差没有任何假定,从问题总体去看,这也可以是非参数的 [4]。

参考文献

[4] 非参数统计,王星等, 清华大学出版社, 2009-3-1

%---------------------------------------------------------------------------------------------------------------------

就本质而言,个人认为参数化方法与非参数方法的区别在于,其间是不是一定需要参数估计。而对于GP之所以说是本质是一种非参数化的方法,言下之意就是其实它可以不用参数估计。对于模型,我们其实我们最终是要得到

equation?tex=P%28y_%7Bn%2B1%7D%7Cx_%7Bn%2B1%7D%2CD%29+%3D+%5Cint+P%28y_%7Bn%2B1%7D%7Cx_%7Bn%2B1%7D%2C+%5Ctheta%2CD%29P%28%5Ctheta%7CD%29 (1)

这里的D是指整个training set。 事实上,整个预测过程我们就是去估计这个积分。但是这个积分大多数时候并不是有具体表达形式的,所以方法主要是有两种[1]。

1.用最有可能的参数值(mean 和kernel里面的参数)去估计整个积分, 即:

equation?tex=P%28y_%7Bn%2B1%7D%7Cx_%7Bn%2B1%7D%2CD%29+%5Csimeq++P%28y_%7Bn%2B1%7D%7Cx_%7Bn%2B1%7D%2CD%2C%5Ctheta_%7BMAP%7D%29 (2)

2.关于

equation?tex=%5Ctheta, 进行纯数值的方法,比如MCMC(蒙特卡罗)直接进行估计[2],这就是所谓的不用参数。

不过无论是哪一种,其实更关键的在于对

equation?tex=P%28%5Ctheta%7CD%29这个分布的估计。从Bayesian的角度看,这个分布可以用后验表达

equation?tex=P%28%5Ctheta%7CD%29+%3D+P%28%5Ctheta%7C%5Cbm%7By%7D_n%2C+X_n%29++%5Cpropto+P%28%5Cbm%7By%7D_n%7CX_n%2C%5Ctheta%29P%28%5Ctheta%29 (3)

其中

equation?tex=D%3D%28%7B%5Cbm%7By%7D_n%2C+X_n%7D%29%2C+%5Cbm%7By%7D_n+%3D+%28y_1%2C%5Cldots%2Cy_n%29%2C+X_n+%3D+%28x_1%2C%5Cldots%2Cx_n%29是整个training set. 其中这一项在正态的假设下很多得到经验的likelihood, 如果我们以这个likelihood最大为要求(这就是所谓的极大似然估计),那么我们根据training set 很快得到对

equation?tex=%5Ctheta_%7BMAP%7D的估计,就是最有可能的

equation?tex=%5Ctheta。如果是使用公式(3),就是MCMC,那么我们还需要对

equation?tex=P%28%5Ctheta%29进行讨论,但是如果使用公式(2),那么问题已经作完 参数已知的话代入具体形式就好(这里GP还用到了良好的conditional 条件让这个积分可以直接计算)。

虽然看上去这样子的话公式(2)的方法更简单,但是事实上,这里却存在一个问题就是这里的极大似然估计,相当于一个最优化问题。由于目标函数不一定是凸的,所以一定程度上我们需要良好的初值才能有良好的效果。这一点有时候还是很致命的。这里我之前的一个文章[3]做了简单的讨论。

所以总的来讲,各种各有优劣,至今为止,这两种方法其实都在被人使用,不过目前学术上可能还是第一种更多吧。

参考文献

[1] MacKay D J C. Introduction to Gaussian

processes[J]. NATO ASI Series F Computer and Systems Sciences, 1998, 168:

133-166.

[2] Neal, Radford M. Bayesian learning for neural

networks. Vol. 118. Springer Science & Business Media, 2012.

[3] Chen,

Zexun, and Bo Wang. "How priors of initial hyperparameters affect Gaussian

process regression models." arXiv

preprint arXiv:1605.07906(2016).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值