频率学派
概率分布表示随机变量的概率分布,被看做一个数值对象,其值是固定值,只不过是未知的,在 取某个值的条件下,变量 的概率分布, 也就是把看做是 条件概率分布。
贝叶斯学派
参数值并不是固定值,而是不确定的,因为我们并没有观察到。 对于没有观察到的事件(得到证据证明其值是什么),其每种值都是有可能的。 在 中,参数 应该也是一个值随机的变量, 因此应该是联合概率分布,而不是条件概率分布。
贝叶斯定理
很多场景下,我们可以看到”果”,也就是我们有变量 的观测值,但我们不知道导致这个”果”的”因”是什么,也就是不知道变量 是什么。这时我们就可以利用贝叶斯定理推断出”因”,而这就是通常所说的贝叶斯推断(Bayesian inference), 很多资料中会把”结果”(观测值)称之为证据(evidence),把”果”变量称为证据变量。
贝叶斯推断
变量 是”因”变量,变量是”果”变量,而其观测值就是看到的”结果”, 我们把变量的观测样本和变量写成贝叶斯定理的形式:
通常被称为 后验概率分布(posterior probability distribution) ,这里”后验”就表示有了 证据 之后,这里的证据就是指”观测结果”,也就是观测样本集。
表示的是在没有任何证据(观测样本集)时,经验上对 的认知, 称为 先验概率分布(prior probability distribution) 。,虽然都表示参数变量的边缘概率, 但它们是在贝叶斯估计中不同阶段的表示,所以这里我们加了一个上标 '
进行区分。
就是在有的条件下生成观测样本的的概率, 我们知道观测样本集是符合独立同分布(i.i.d)的,所以展开后具有如下形式,我们发现这其实就是样本的似然,所以 就是样本的似然值。
是”果”的观测,直观的讲就是观测样本集的概率,通常被称为证据(evidence)。
作为归一化因子,通过对分子中参数变量积分得到,消除了参数的影响,其不再受到参数的影响。 换句话说,只要样本集 确定了,那么的值就确定了,不再变化,在确定了样本集后,其是一个固定值。
综上,贝叶斯推断可以表述成如下方式, 其中符号 ∝ 表示正比关系。
我们可以用贝叶斯推断找到参数变量 的后验概率分布 ,然后把 作为参数的”真实”概率分布, → 。因此有,
<---
但是要推断出还存在两个难点:
-
先验分布如何确定。
-
分母需要计算积分,并且是对 进行积分,的形式会影响积分的难度。
理论上参数的先验分布应该根据我们其认知信息确定, 但实际上多数情况下我们对参数是一无所知的,没有任何信息, 这时,我们就需要一种被称为无信息先验(noninformative prior)的先验分布。 这有时也被称为“让数据自己说话”。 除无信息先验外,另外一种确定先验分布的方法为共轭先验(conjugate prior), 共轭先验是一种使用非常广泛的确定先验分布的方法。
共轭先验(conjugate prior)
在贝叶斯推断中,如果后验分布与先验分布属于同一种概率分布,则此先验分布称为共轭先验。 注意,由于后验分布是由先验与似然相乘得到的,所以共轭指的是先验与似然共轭, 共轭先验与似然相乘后,不改变分布的函数形式,所以得到后验与先验具有相同的形式。
共轭先验使得后验分布和先验分布拥有相同的形式, 很多时候可以直接给出后验的结果, 而不必计算分母,这极大的降低了后验分布的计算复杂度。 高斯分布的似然函数的共轭分布仍然是高斯分布,伯努利分布的似然函数的共轭先验是beta分布, 类别分布的似然函数的共轭分布是狄利克雷分布。 共轭先验也是有缺点的,其一是只有指数族分布才存在共轭先验。 其二是,选取共轭先验更多是为了计算简单,而不是为了更精确的估计参数。
选取了合适的参数先验分布后,就可以利用贝叶斯推断得到参数的后验概率分布 ,后验概率分布就是我们在观测样本集的条件下对参数变量 概率分布的估计,即,
只是记作,不是运算结果
有了 的边缘概率分为,就可以预测新样本的概率:
注意:有了参数 的后验概率分布 , 就相当于得到了参数的”估计值”,和最大似然估计不同的是, 最大似然估计得到的是点估计(参数一个数值估计)。 而贝叶斯估计是把参数看做一个随机变量,得到的是参数的后验概率分布,类似于区间估计。
类别分布
假设随机变量 是一个以为参数变量的类别分布, 其概率分布函数可以写成如下条件概率分布。
其中 是一个指示函数,当时, ;反之, 。 表示参数向量,这里不再是一个标量,而是一个向量。 参数变量 的概率分布是 , 随机变量 和 组成联合概率分布 。
先验分布
类别分布的共轭先验是狄利克雷(Dirichlet)分布, 所以这里我们选取狄利克雷分布作为参数变量的先验分布。
狄利克雷分布的概率函数为:
其中是狄利克雷分布的参数,可以使用经验值,这里看做是已知量。 狄利克雷分布是一个 多元连续变量 的分布,一个概率分布同时输出多个子变量的概率值, 并满足约束 。 狄利克雷分布每一个子变量的期望值是:
狄利克雷分布是连续值分布,所以满足积分为1的约束。
我们把这个积分式稍微变换一下,稍后会使用到。
后验分布
根据贝叶斯公式,可以写出参数变量 的后验概率分布:
我们再看分母部分 ,分母是对分子的归一化, 由于这里 是连续值变量,所以分母是对分子的积分。 也可以理解成是对联合概率分布 进行边际化求得边缘概率 。
参考一下积分变换,其中的积分部分可以改写一下得到 。
我们把这个代入回后验概率分布的分母部分。
我们看到后验概率分布仍然是一个狄利克雷分布, 类别分布的参数进行贝叶斯估计时,参数的共轭先验是狄利克雷分布,得到的参数后验概率分布也是狄利克雷分布。
预测新样本
根据观测集得到参数变量的后验概率分布 ,然后假设是参数 的真实概率分布, 通过对联合概率分布 边缘化的方式得到类别变量的边缘概率分布 ,最后利用预测变量 的值。 在推导的过程中需要利用几个性质:
Gamma函数的性质:
表示类别 在观测样本集中出现的次数,
只有当 时,指示函数等于1,否则等于0,因此下面连乘可以分解化简。
继续化简 :
最终我们得到了变量 的边缘概率分布,可以看到最后的公式中没有参数 ,因为已经通过积分消除掉了参数变量 。
这种通过积分边缘化(求)的方法,推导过程是复杂的。 我们可以使用变量参数 的后验分布的期望值作为参数的估计值,然后把估计值代入到观测变量的条件概率分布中。 参数 的后验概率分布 是一个狄利克雷分布,参考和,可以直接写出参数 后验分布期望值。
贝叶斯估计计算后验概率分布的过程是困难的,需要在整个参数空间求和或者求积分,这在通常情况下是非常困难的(采用共轭先验会简化), 然后在做预测或者模型比较时又要再次积分(求期望需要积分)。 此外,当数据集规模较小时,贝叶斯估计的结果接近先验分布,当数据集足够大时,贝叶斯估计的结果就会逐渐偏离先验,等价于极大似然估计的结果。 当数据集规模趋近于无穷时,贝叶斯估计的结果和极大似然的结果是一致的。 在实际应用中,贝叶斯估计先验的选择通常是为了计算方便(共轭先验)而不是为了反映出任何真实的先验知识, 然而当先验选择不好的时候,贝叶斯方法有很大可能得到错误的结果。 这一点经常被频率派用来批判贝叶斯派。