先验概率和后验概率_PRML CH2 Probability Distribution 概率分布

最新推荐文章于 2022-10-15 11:57:39 发布

weixin_39588104

最新推荐文章于 2022-10-15 11:57:39 发布

阅读量749

点赞数

文章标签：先验概率和后验概率

(码字真tm累.....)

前言

本章讲了几个基本的概率模型，贝叶斯理论的终极目标就是给出各个可能性大概率分布，那么首先就要假设一下数据的分布是符合哪种模型。本章给了一些常用的例子，二项分布，多项分布，高斯分布。这些分布的优点在于他们有一些不错的性质性质，比如导数简单、参数积分方便等，参数存在可以简化计算的先验分布形式（也就是书中讲的conjugate prior）。作者讲这章的前几个模型的思路是，给出模型，然后从贝叶斯极大似然估计的方式给出参数的最优化估计，之后介绍贝叶斯。之后作者讲了数值估算概率密度函数的方法。

2.1 二元分布

设概率空间只包含两个状态

，那么令

，设数据为

，那么有

对数似然函数是

从极大似然法(ML)的角度，最适合的参数

满足

得到

从贝叶斯定理的角度来看，我们要得到的结果应该是参数的后验概率，即

，这里

是先验概率。为了让后验概率与似然函数的形式是一样的，先验概率应该采取

函数的分布形式，因为似然函数关于

也是

函数的形式，即

带入到贝叶斯定理中，归一化得到

可以看到，在数据量增大以后，

的分布逐渐变成一个

函数。这里作者从variance的角度给出了直观的解释，假设数据

只是能够生存的数据的芸芸众生之一，那么每一个生成的数据都有一个概率分布，于是参数

的先验方差/均值和后验方差/均值之间有如下关系

第二个等式的第一项是后验概率的方差的均值，如果数据的生成模型是确定的，那么数据的方差应该是很低的，所以这一项就可以认为和某一组数据

的方差

很接近，因此

。

最后，贝叶斯理论要求给出数据的预测

可以看到，结果很直观，参数

、

分别代表了先验概率中

和

的个数。选取

函数作为先验概率的另外一个好处在于，它的参数可以以逐个数据点的方式(sequential)更新

最后作者讲了二项分布，也就是说数据

的形式不是每一个数据是

的形式，而是给出了数据是

或

的总数

，于是

2.2 Multinomilal Variables 多元分布

这一节和上一节很像，只不过数据从两种变成了

种，每一种都有一个概率

且

。该如何设置状态是一个问题，你可以选择

，但是这样不方便，于是选用

的一个

阶列矢量来表示状态(onehot),于是

矢量

。设数据为

，那么得到对数似然函数就是

可以算出参数

的极大似然解

对于数据只是各种类出现次数时

，分布函数变为多项分布

类似二元分布，多元分布的参数

的先验概率分布也存在很好的形式，称为狄利克雷(Dirichlet)分布

于是后验概率分布为

2.3 Gaussian Distribution 高斯分布

高斯分布能够用到的就是条件概率分布和它的marginal概率分布。(marginalize的意思从英文是边界化，但是这里其实就是对一条坐标积分...)

设高斯分布

的向量

是分为两个部分，即

二次型的系数矩阵

为

我们先求条件分布算起，然后再算Marginal分布。

2.3.1 条件概率分布

将高斯分布的二次型中

的部分看作是常量，总的式子可以看作是

的二次型，其斜方差矩阵为

一次项系数为

根据分块矩阵的逆的公式

可以得到

带入得到

2.3.2 Marginal 概率分布

Marginalize的过程就是对

部分积分平均一下各个

的影响，在积分过程中二次型

的积分会产生常数项，把它加到原来

的二次型中就会得到新的二次型

化简后得到

这里的计算比较复杂，其实有更加简单的方法，考虑分布

的(第二)特征函数(second)characteristic function的对数

可以发现将

代入求得的就是marginal分布的特征函数，直接就能得到上面的结果。

2.3.3 高斯分布的贝叶斯定理

计算中常常遇到对参数的初分布求平均值的情况，而最简单的情况就是参数

本身是高斯分布

，而选择用来拟合的函数模型

中，一般关于参数都是线性函数

的形式，加上一个高斯噪声，我们在考察某个自变量值时，便可以将

看作是常数，于是

。

根据第一章中的知识，我们可以做两件事。一个是根据后验分布

估计模型参数

的最优值(MAP)，因此我们需要后验分布

；第二件是求出函数值

的估计，也就是它的分布

。

求后验概率

，用到的是将联合分布

取条件概率；求

是将

中

的部分marginalize。这两个量的求法恰好对应前两小节所讲的内容。

先写出联合分布的高斯函数的二次型

关于变量

的二次型的系数矩阵为

于是将上面的结果代入到前两节的计算式中得到marginal分布为

条件概率算出的后验分布为

2.3.4 高斯分布中的参数极大似然估计

这节需要掌握的一个对矩阵元求导的法则(在附录中)，下面就详细的总结一下吧，以前还真没学过。设

是一个变量，矩阵

和

是其函数，有

如果令

有

于是

下面求

，已知

而我们知道行列式

可以展开为余子式的形式

所以

于是

另外某个标量函数对矩阵求导，得到是一个矩阵，元素是对某矩阵元求导的值，即

，于是还可以得到下面的式子

根据分布求导法则，和迹的乘法交换性还可以得到

根据之前得到的式子，还有

回到正题，假定某个随机变量的分布是高斯分布

，那么得到数据

的概率的对数为

对其参数

求导数，可以得到极大似然解，过程需要用到的工具都给出了，还有一个技巧在于

这里直接写结果

还有一个比较能猜测到的结果，和一元时一样

2.3.5 sequential estimation 当数据是有次序的进入时，该如何做估计

没办法，英文很直观，中文很繁琐。这节讲的就是如何把全部数据一起操作的计算方法(batch algorithm)转变成数据一个一个进来(sequential)，每进来一个更新一次数据的方法(on-line algorithm)。以ML给出的均值

的计算公式为例，on-line方法的迭代公式是

本节讲了一个一般性的定理，叫Robbins-Monro algorithm。它讲的是，假设我有一个联合分布

是参数。我想找到

时的参数theta

，那么它可以有一个迭代的求法。假设

的方差总是有限值

，且有一个序列

满足

那么迭代公式

在

时就趋于我们想要的解。以我们这个问题为例子，假设每一个数据都是独立无关联的，对数似然函数的取极值也就对应

在

时，问题等价于

这里

于是迭代公式就是

令

即可得到原来的迭代式。

PS：这里有一个问题，若令

或其他满足条件的序列，是不是也可以呢?这里需要做一下实验。

2.3.6 Bayesian Inference for Gaussian

本节其实讲的就是一元高斯分布时，参数的conjugate prior的形式，首先我们看似然函数的函数形式

关于参数

是一个高斯分布的形式

关于参数

是如下形式

和起来的形式也是不能改变的

能改变的只有参数

、

。我们假定的参数的初分布，要保证后验分布和似然函数形式是一样的。所以先验分布应该如下选择，把所有和数据有关的参数全部化为待定参数

先把

的部分提取出来，它是一个高斯分布

注意到对

积分后会多出一个

。归一化后得到

这里gamma分布是

系数

、

关于数据的更新方式为

对于多元高斯分布也可以做类似的类比，设

似然函数正比于

于是令参数的先验分布为

各个系数的后验分布更新方式为

对

是一个高斯分布

积分之后剩下的部份是

是归一化系数，上面的分布是多元Gamma分布，

可以看出

是等效的斜方差矩阵。

2.3.7 Student's Distribution 学生分布

本节的内容就是认为对高斯分布

中的

按照conjugate prior的分布marginalize

令

、

代换得到的就是学生分布

系数

，

。这里的

可以理解为“得到先验概率时用到的数据量”，因此在假定

而

不变时，利用Laplace approximation可以看出Gamma分布已经趋于

，也就是说根据中心极限定理，系数

的不确定性已经很小了，所以此时学生分布会趋于一个高斯分布。而当

时，可以认为是获得先验概率用到的数据点只有一个，所以不确定性要大一些，所以此时的Cauchy分布要比高斯分布更加扩散一些。

书中提到，学生分布因为考虑到了所有的方差

的可能性，因此展宽更高，而相应的鲁棒性也更高。

根据上文所叙述的各个参数的统计意义，也可以给出高维空间中的学生分布

需要注意的是虽然

的统计意义虽然是斜方差矩阵，但是实际的斜方差矩阵还要乘以一个系数

2.3.8 Periodic Variables 圆上的类高斯分布

具有周期性的定义域上的高斯分布可以类比为以下分布(von Miles distribution)

书中也给出了这种分布下的极大似然法，不展开了。

2.3.9 Mixtures of Gaussian 混合高斯分布

第五章神经网络的位置讲了混合高斯分布为输出的网络该如何优化，但是那个不是对概率

建模，而是自变量函数

建模，因此各个系数

、

都是自变量

的函数。

第九章讲Expectation maximization的时候会仔细讲，然而现在(2019.1.31)我还没看到那里。

2.4 Exponential Family 指数函数族

之前书中讲过的所有概率分布模型都可以归纳为指数族分布(exponential family)

这里

是归一化函数，

是分布函数中不需要参数的部分，而需要参数的部分都表示为

。书中举了几个例子，在这些例子中

都是

。

称作数据

的充足统计(sufficient statistics)，只需要知道

而不是

本身就可以得到x的概率分布(有时得到充足统计比得到数据本身简单？)。

2.4.1 指数族的一般性极大似然法

本节给出的是指数族分布函数关于参数的极大似然法的一般处理方式。从上一节我们至到

是归一化函数，它的身份类似于统计物理中的系综的配分函数的倒数，由归一化性质可以得出

于是

表示代表的统计意义就如其所示。合理的参数选择应该让

和真实的数据重合。这一条件也可以从最大化似然函数得到。似然函数写为

似然函数取极值的条件是其对参数的导数为零，即

另外，习题中还给出了一个常用的结果，可以看到指数族函数的优势在于它可以很方便的给出数据的均值和方差。

2.4.2 指数族函数的conjugate prior的一般性公式

根据上一小节似然函数的形式，不难推测出conjugate prior的形式为

是归一化系数，

的统计意义是先验分布的等效数据量，

是先验分布的等效数据的充分统计的均值。

书中自然的给出了后验分布的形式

2.4.3 不包含信息的先验概率分布

这一节讲了几个尽量让prior distribution不包含信息(每一个参数条件均等价)的方法，但是实际上这一是徒劳的，只要引入先验分布，因为归一化的要求，一定会对参数有所偏向。

2.5 非参数化方法(写到这里有些烦了，这一节可能没那么仔细)

这一节实在是没讲什么。首先讲了用histogram的方法(也就是直方图)来近似概率

2.5.1 kernal density estimator 核函数估算概率密度

本节讲了用kernal的方法来估算概率，使得得到的概率分布是连续函数。

这个算法的缺点就是

在空间中各个位置都是一样的，但是数据空间中有些地方比较密集，有些地方很稀疏，稀疏的地方就不太适用。

2.5.2 近邻算法

书中提到密度的估算是

，核函数从原理上来说是令体积元

不变，而近邻算法是固定

而去计算

。

近邻算法考虑的是分类问题，假设有

个分类，而

条数据中各个类别的个数为

，所以先验概率分布为

，数据空间中的一点

的概率密度的估算为

于是后验概率为

近邻算法认为

是固定值，代表的是距离数据点