MLAPP————第五章 贝叶斯统计

第五章 贝叶斯统计

5.1 简介

前面我们已经介绍了很多不同的概率分布,以及如果将这些概率分布与我们的数据进行结合。我们考虑了各种各样的先验,我们学习了MAP去估计参数,从而去判别新的样本,我们学会了用后验的概率分布去进行估计。使用后验分布去总结未知变量是贝叶斯统计的核心,我们这一章将讨论更多的细节。下一章我们将分析频率派统计或者叫经典统计。

5.2 后验分布的总结

对于一个变量来说,如果我们得到了它的后验分布,那么可以说,我们就已经完全了解这个变量了,那么在这一小节中,我们可以去了解一下一些由后验分布得到的统计量,因为这些统计量往往比整个分布更加的直观,也容易理解。

5.2.1 MAP估计

那么对于后验分布来说,由很多的点估计,比如均值,中位数,众数。在5.7中,我们将使用决策论去分析选择哪一种点估计的方法。一般来说,其实均值是一个比较好的方法,尤其是对于连续实值变量来说。但是往往在现实应用中,用的比较多的是众数。因为这就转化为了一个优化问题,就是对后验求最大值,这个往往是有比较好的实现的算法。其实如果用map,就是最大似然的基础上加了一个log先验的正则项。

虽然在计算上这个方法是很吸引人的,但是实际上我们也要指出MAP估计的方法也是有很多的缺陷的。

5.2.1.1 没有对不确定性进行度量

很多点估计的一个很大的问题(包括MAP,均值估计),这是MAP的最大问题,就是对于这个估计值的不确定度进行度量,其实很多时候我们想知道你这个估计值到底有多可靠,可靠性怎么样,但是点估计不会给出。我们在5.2.2中将给出如何从后验分布中得到这样的一个可靠性的测量。(这一点就是比如说你的后验分布是高斯的,当你的高斯分布的均值不变,方差改变时,那么你的MAP估计和后验均值点估计,都是不变的,但是方差很小的可靠性明显要比方差很大的可靠性要高很多,所以这个问题就很严重

5.2.1.2 使用MAP点估计会导致过拟合

之前其实有提到过,点估计相比于后验分布估计的话,更容易导致过拟合,很多时候我们不仅要考虑模型拟合的准确度,我们还要去分析参数本身的意义,这也是我们为什么引入先验的原因,其实后验估计相比MLE是不太容易过拟合,而采用后验分布估计比MAP更不容易过拟合。因为你使用MAP,就把后验分布所带来的不确定性给忽略了,所以更容易过拟合。

5.2.1.3 众数是一个非典型的点

选择众数作为一个后验分布的总结,往往很多时候是非常差的。对于分布来说,这个点估计其实是不太典型的,它跟均值或者中位数不太一样。书中给了例子:

左边的是双峰的,蓝色是均值点,右边是单调递减的,很明显这两个分布的众数都是一个不好的估计值,不能体现后验分布的特性(比如左边的尖峰有可能是一些噪声引起的,其实它的面积很小,在算均值时影响很小)。那么我们怎么知道我们的这个众数估计出来是否合适呢,那么后面5.7讲决策理论的时候会提到。

5.2.1.4 MAP估计对于再参数化之后并不是不变的*

在MAP估计中,一个更加微妙的问题就是最终的结果跟我们如何参数化这个概率分布相关。从一个表示的形式变到另一种等价的表示形式,结果就会发生改变,这不是很理想的,因为很多的测量下,单位制是任意的。

为了理解这个问题,我们假设已经找到了x的后验,我们定义y=f(x),我们根据公式2.87,得到y的后验分布:,而一般来说左边的MAP与右边是不一样的。举个例子,令,且,其中我们有,我们可以通过monte carlo的方法去生成y的概率分布。将y分成先离散化为密集的区间,然后生成很多x,计算y,然后分配到各自的区间,就可以了。下图给出了最后的结果:

绿色部分就是y的概率分布,红色时x的,很明显,x的MAP,通过f(x)映射过去,并不是y的MAP。

为什么在MAP的环境下就会有这样的问题呢,考虑伯努利分布,这个分布是由均值\mu作为参数,即,其中。假设我们的先验是均匀分布,并且没有数据,那么后验概率密度函数就是先验。那么安照这个先验,我们的\mu是随便取的,那么换一种表达方式呢。

所以说MAP估计依赖于参数的选择。但是MLE就不会有这样的问题,因为MLE是函数,并不是概率分布(公式2.87说明,分布要保证CDF是保持不变的)。贝叶斯推理(这里是否指前面的后验分布估计?)也没有关系,因为他是对整个参数空间的积分。

一个解决办法就是:,其中\mathbf I(\boldsymbol\theta)是关于p(\mathbf x|\boldsymbol\theta)的Fisher信息矩阵(6.2.2会讲到),但是这个式子的求解很复杂。

5.2.2 可靠区间

对于点估计来说,我们总是希望一个关于信息的测量。那么使用可靠区间,有很多的区间可以选,我们选用中心区间,就是对于后验概率分布找一个连续的区间。如果是中心区间,就是该区间的左右两边是一样的,概率都是\frac{1-\alpha}{2}

如果我们的后验分布的函数形式是已知的。那么中心区间就是,F就是后验分布的cdf。比方说后验是高斯分布,\alpha =0.5,那么

如果我们并不知道后验分布的具体的形式,那么可以使用monte carlo的方法去将区间给找出来。

对于这个可靠区间,比如\alpha =0.5,那么我们就可以说,变量有95%的概率是在这个区间里的,如果点估计出来的值,不再这个区间里,那么这个估计值就是不可靠的。比如说之前的MAP提到的双峰分布,MAP估计出来的值就是很不可靠的。

关于贝叶斯派的可靠区间(Bayesian credible intervals)和频率派的置信区间(frequentist confidence intervals)是有区别的,这里我自己还没有完全搞清楚,后面6.6.1会详细讲到。

5.2.2.1 后验密度最高的区域 (highest posterior density region)

对于中心分布有一个问题就是,如果两边很不对称,有可能出现如下右图的形式:

右图的中心区间中,左边没有在区间中的边缘其实概率是很高的,右边在区间中的边缘概率是很低的,这样其实并不合理。所以我们又提出了highest posterior density (HPD)region. 这个区域的定义如下:正如右图所示,它的概率两边都是一样的。

在一维的情况下,HPD区域有时也叫做highest density interval HDI,例如上面的右图就是Beta(3,9)的95%HDI,是(0.04,0.48),很明显HDI比CI要窄,而且HDI的区间内的概率是要高于区间外的。对于单峰的区间,HDI是最窄的包含95%概率的区间。对于多峰的分布而言,HDI并不是一个连续的区间,而是多个区间。

5.2.3 比例差异的推断(不会翻译 Inference for a difference in proportions)

有的时候,我们会有一些变量,但是我们在意的是计算这些变量的一些函数的后验分布。举个例子,假设你想从亚马逊上买个东西,有两个卖家,他们卖的价格是一样的。卖家1有90个好评,10个差评,卖家2有2个好评,没有差评,那么你选择买哪一个。

\theta_1,\theta_2是两个卖家我们未知的可靠的程度,由于我们对他们了解的并不多,我们使用均匀的先验分布\theta_i\sim Beta(1,1)我们之前讲过对于二项分布来说,beta分布是共轭先验),那么后验分布就是以及。我们希望得到的是哪一个卖家更可信,,所以我们定义,计算:

这个式子理解上就是求函数的的期望,得到最终的值是

另一个简单的方法就是利用Monte carlo的方法,因为\theta_1,\theta_2是独立的后验分布,并且已经知道了,所以可以采用采样的方法去估计\delta的后验分布。

5.3 贝叶斯模型选择

当我们在进行多项式拟合时,我们选用次数比较高的模型,会出现过拟合的现象,我们选用次数比较低的模型,会出现欠拟合的现象。同样在进行选择正则化参数时,参数过大,出现欠拟合的现象,参数过小,出现过拟合的现象。那么在面对问题时,我们总会面对一堆不同复杂度的模型,那么哪一个模型才是最好的呢,这就是模型的选择问题。

一种方法就是使用交叉验证的方法,去计算每一个模型的泛化误差,选最好的那一个。但是这个需要对每一个模型去计算K次,K就是CV块的个数。另一种有效的方法就是计算模型的后验:,那么我们使用MAP估计,,这就叫做贝叶斯模型选择。如果我们使用均匀的先验,即,那么我们就要最大化,这个东西叫做边缘似然,积分似然,或者时模型m的证据。

这一块只给出了一个概念,其实比较的抽象,不过后面应该会讲实际中怎么处理。

5.3.1 贝叶斯奥卡姆的剃刀

肯定有人会想,我们使用p(\mathcal D|m)去选择模型,往往总是喜欢选那些参数最多的模型。实际上并不是这样,如果我们使用去选择模型的话,\hat{\boldsymbol\theta}_m是针对模型m,MLE或者MAP的结果,确实是会选择更加复杂的模型。这一点对于MLE而言,更加复杂的模型,在进行MLE拟合时,肯定是能跟数据拟合的很好。对于MAP而言,虽然有先验,但是这个先验是针对参数的,不是模型的,所以理解上还是更加复杂的模型会拟合的更加的好。但是把参数给积分掉了,而不是最大化它,这样我们就自动的避免了过拟合(这里目前我解释不了)。贝叶斯奥卡姆的剃刀就是说,具有更多参数的模型,不一定具有更高的边缘似然。

有两种方式去理解这个准则(这里我写的并不好,自己没完全理解)。第一个就是利用链式法则把边缘似然进行重写,那么有:(为了简单起见,把m省略掉了),这里我们看到,每一个数据的估计都是依赖于前面所有的数据,如果模型过于复杂,前面的例子导致过拟合,可能后面的预测会比较差。

另一个理解贝叶斯奥卡姆剃刀原理的方法是,如果我们将所有可能出现的数据集的概率加起来(假设数据集有D个数据),因此我们有:。所以复杂的模型,它预测的东西会更多,所以它每一个点的概率会更小,相反,简单的模型,它每一个点整体概率会偏大,但是覆盖的范围少。如下图所示:

我们实际观测到的数据是\mathcal D_0,那么最简单的模型就是M1,但是这个模型过于简单,都没有覆盖\mathcal D_0。M3是最复杂的模型,也可以看出它覆盖的情况是最多的,但是对于\mathcal D_0而言,概率并不高,相比而言模型M2就比另外两种更加的合适。

这一块后面讲了一些例子,但是都有些超过目前的内容,并且后面会讲到,但是后面提到一点,对于模型证据的选择有时候会是连续量,并不一定是离散的量,用一些optimization的方法去求。

5.3.2 计算边缘似然

之前我们讲进行参数的推断的时候,我们经常用下面的公式:,后验正比于先验乘以似然。这里会忽视掉归一化常数p(\mathcal D|m),因为这个归一化常数和参数是无关的。但是我们在进行模型的比较选择的时候,就是需要这个通过这个边缘似然进行估计。实际上这个边缘似然在计算的时候是比较难的,因为需要进行积分,那么我么如果引入共轭先验的话就会使得计算比较的简单。

为什么这么说,因为共轭先验意味着先验和后验具有相同的形式,如果先验知道了,那么后验我们是能准确知道的,而似然我们又知道,所以通过后验除以先验和似然

  • 0
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值