统计学习分析重学笔记(一):由想理解evidence引出的

频率学派

概率分布P(X;\theta )表示随机变量X的概率分布,\theta被看做一个数值对象,其值是固定值,只不过是未知的,在 \theta 取某个值的条件下,变量 X 的概率分布, 也就是把P(X;\theta )看做是 条件概率分布P(X|\theta )

贝叶斯学派

参数值并不是固定值,而是不确定的,因为我们并没有观察到。 对于没有观察到的事件(得到证据证明其值是什么),其每种值都是有可能的。 在 P(X;\theta )中,参数 \theta 应该也是一个值随机的变量, 因此P(X;\theta )应该是联合概率分布P(X,\theta ),而不是条件概率分布。

贝叶斯定理

P(X,\theta )=P(\theta )P(X|\theta )=P(X)P(\theta|X)

P(\theta|X)=\frac{P(\theta )P(X|\theta )}{P(X)}

很多场景下,我们可以看到”果”,也就是我们有变量 X的观测值,但我们不知道导致这个”果”的”因”是什么,也就是不知道变量 \theta是什么。这时我们就可以利用贝叶斯定理推断出”因”,而这就是通常所说的贝叶斯推断(Bayesian inference), 很多资料中会把”结果”(观测值)称之为证据(evidence),把”果”变量称为证据变量。

贝叶斯推断

变量 \theta 是”因”变量,变量X是”果”变量,而其观测值\textup{\textsl{D}}就是看到的”结果”, 我们把变量X的观测样本\textup{\textsl{D}}和变量\theta写成贝叶斯定理的形式:

P(\theta|D)通常被称为 后验概率分布(posterior probability distribution) ,这里”后验”就表示有了 证据 之后,这里的证据就是指”观测结果”,也就是观测样本集。

{P}'(\theta)表示的是在没有任何证据(观测样本集)时,经验上对 \theta 的认知, 称为 先验概率分布(prior probability distribution) 。{P}'(\theta),{P}(\theta)虽然都表示参数变量的边缘概率, 但它们是在贝叶斯估计中不同阶段的表示,所以这里我们加了一个上标 ' 进行区分。

P(D|\theta)就是在有\theta的条件下生成观测样本的的概率, 我们知道观测样本集是符合独立同分布(i.i.d)的,所以展开后具有如下形式,我们发现这其实就是样本的似然,所以P(D|\theta) 就是样本的似然值。

P(D)是”果”的观测,直观的讲就是观测样本集的概率,通常被称为证据(evidence)

P(D)作为归一化因子,通过对分子中参数变量积分得到,消除了参数的影响,其不再受到参数的影响。 换句话说,只要样本集 \textup{\textsl{D}} 确定了,那么P(D)的值就确定了,不再变化,在确定了样本集后,其是一个固定值。

综上,贝叶斯推断可以表述成如下方式, 其中符号 ∝ 表示正比关系。

我们可以用贝叶斯推断找到参数变量 \theta 的后验概率分布P(\theta|D) ,然后把 P(\theta|D) 作为参数的”真实”概率分布, P(\theta|D)→ {P}(\theta)。因此有,

<---\int_{0}^{1}P(\theta)P(X|\theta)d\theta

但是要推断出P(\theta|D)还存在两个难点:

  1. 先验分布{P}'(\theta)如何确定。

  2. 分母P(D)需要计算积分,并且是对 {P}'(\theta)进行积分,{P}'(\theta)的形式会影响积分的难度。

理论上参数的先验分布应该根据我们其认知信息确定, 但实际上多数情况下我们对参数是一无所知的,没有任何信息, 这时,我们就需要一种被称为无信息先验(noninformative prior)的先验分布。 这有时也被称为“让数据自己说话”。 除无信息先验外,另外一种确定先验分布的方法为共轭先验(conjugate prior), 共轭先验是一种使用非常广泛的确定先验分布的方法。

共轭先验(conjugate prior)

在贝叶斯推断中,如果后验分布与先验分布属于同一种概率分布,则此先验分布称为共轭先验。 注意,由于后验分布是由先验与似然相乘得到的,所以共轭指的是先验与似然共轭, 共轭先验与似然相乘后,不改变分布的函数形式,所以得到后验与先验具有相同的形式。

共轭先验使得后验分布和先验分布拥有相同的形式, 很多时候可以直接给出后验的结果, 而不必计算分母P(D),这极大的降低了后验分布的计算复杂度。 高斯分布的似然函数的共轭分布仍然是高斯分布,伯努利分布的似然函数的共轭先验是beta分布, 类别分布的似然函数的共轭分布是狄利克雷分布。 共轭先验也是有缺点的,其一是只有指数族分布才存在共轭先验。 其二是,选取共轭先验更多是为了计算简单,而不是为了更精确的估计参数。

选取了合适的参数先验分布后,就可以利用贝叶斯推断得到参数的后验概率分布P(\theta|D) ,后验概率分布就是我们在观测样本集的条件下对参数变量  \theta 概率分布的估计,即,

只是记作P(X|D),不是运算结果

有了X 的边缘概率分为,就可以预测新样本的概率:

注意:有了参数 \theta的后验概率分布P(\theta|D) , 就相当于得到了参数\theta的”估计值”,和最大似然估计不同的是, 最大似然估计得到的是点估计(参数一个数值估计)。 而贝叶斯估计是把参数看做一个随机变量,得到的是参数的后验概率分布,类似于区间估计

类别分布

假设随机变量 X是一个以\theta为参数变量的类别分布, 其概率分布函数可以写成如下条件概率分布。

其中\delta(x,x_{m}) 是一个指示函数,当x=x_{m}时, \delta(x,x_{m})=1 ;反之,\delta(x,x_{m})=0 。\theta 表示参数向量,这里\theta不再是一个标量,而是一个向量。 参数变量\theta 的概率分布是 P(\theta), 随机变量X 和 \theta组成联合概率分布 P(X,\theta) 。

先验分布

类别分布的共轭先验是狄利克雷(Dirichlet)分布, 所以这里我们选取狄利克雷分布作为参数变量\theta的先验分布。

狄利克雷分布的概率函数为:

其中\alpha是狄利克雷分布的参数,可以使用经验值,这里看做是已知量。 狄利克雷分布是一个 多元连续变量 的分布,一个概率分布同时输出多个子变量\theta _{m}(1\leq m\leq M)的概率值, 并满足约束 \sum_{m}^{}\theta _{m}=1 。 狄利克雷分布每一个子变量\theta _{m}的期望值是:

狄利克雷分布是连续值分布,所以满足积分为1的约束。

我们把这个积分式稍微变换一下,稍后会使用到。

后验分布

根据贝叶斯公式,可以写出参数变量 \theta的后验概率分布:

我们再看分母部分P(D) ,分母是对分子的归一化, 由于这里 \theta 是连续值变量,所以分母是对分子的积分。 也可以理解成是对联合概率分布P(D,\theta) 进行边际化求得边缘概率P(D) 。

参考一下积分变换,其中的积分部分可以改写一下得到 P(D)

我们把这个代入回后验概率分布的分母部分。

我们看到后验概率分布仍然是一个狄利克雷分布, 类别分布的参数进行贝叶斯估计时,参数的共轭先验是狄利克雷分布,得到的参数后验概率分布也是狄利克雷分布。

预测新样本

根据观测集D得到参数变量\theta的后验概率分布 P(\theta|D) ,然后假设P(\theta|D)是参数 \theta的真实概率分布, 通过对联合概率分布 P(X,\theta) 边缘化的方式得到类别变量X的边缘概率分布 P(X),最后利用P(X)预测变量X 的值。 在推导P(X)的过程中需要利用几个性质:

Gamma函数的性质: 

n_{m}表示类别  在观测样本集D中出现的次数,N=\sum_{m}^{}n_{m} 

只有当 x=x_{m} 时,指示函数\delta (x,x_{m})等于1,否则等于0,因此下面连乘可以分解化简。

继续化简 :

最终我们得到了变量 X的边缘概率分布,可以看到最后的公式中没有参数\theta ,因为已经通过积分消除掉了参数变量 \theta 。

这种通过积分边缘化(求P(X))的方法,推导过程是复杂的。 我们可以使用变量参数\theta 的后验分布的期望值作为参数的估计值然后把估计值代入到观测变量X的条件概率分布P(X|\theta)。 参数 \theta的后验概率分布P(\theta|D) 是一个狄利克雷分布,参考,可以直接写出参数 \theta后验分布期望值。

贝叶斯估计计算后验概率分布的过程是困难的,需要在整个参数空间求和或者求积分,这在通常情况下是非常困难的(采用共轭先验会简化), 然后在做预测或者模型比较时又要再次积分(求期望需要积分)。 此外,当数据集规模较小时,贝叶斯估计的结果接近先验分布当数据集足够大时,贝叶斯估计的结果就会逐渐偏离先验,等价于极大似然估计的结果。 当数据集规模趋近于无穷时,贝叶斯估计的结果和极大似然的结果是一致的。 在实际应用中,贝叶斯估计先验的选择通常是为了计算方便(共轭先验)而不是为了反映出任何真实的先验知识, 然而当先验选择不好的时候,贝叶斯方法有很大可能得到错误的结果。 这一点经常被频率派用来批判贝叶斯派。

[1] 4. 贝叶斯估计 — 张振虎的博客 张振虎 文档

  • 23
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值