参数估计:贝叶斯思想和贝叶斯参数估计

概率图模型PMG 同时被 3 个专栏收录
26 篇文章 4 订阅
20 篇文章 25 订阅

http://blog.csdn.net/pipisorry/article/details/51471222

贝叶斯与频率派思想

频率派思想

    长久以来,人们对一件事情发生或不发生,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且事情发生或不发生的概率虽然未知,但最起码是一个确定的值。

比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会立马告诉你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一个值,而且不论你取了多少次,取得白球的概率θ始终都是1/2,即不随观察结果X 的变化而变化。

这种频率派的观点长期统治着人们的观念,直到后来一个名叫Thomas Bayes的人物出现。

频率派把需要推断的参数θ看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;

最大似然估计(MLE)和最大后验估计(MAP)都是把待估计的参数看作一个拥有固定值的变量,只是取值未知。通常估计的方法都是找使得相应的函数最大时的参数;由于MAP相比于MLE会考虑先验分布的影响,所以MAP也会有超参数,它的超参数代表的是一种信念(belief),会影响推断(inference)的结果。比如说抛硬币,如果我先假设是公平的硬币,这也是一种归纳偏置(bias),那么最终推断的结果会受我们预先假设的影响。

贝叶斯思想

    回到上面的例子:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率θ是多少?”贝叶斯认为取得白球的概率是个不确定的值,因为其中含有机遇的成分。比如,一个朋友创业,你明明知道创业的结果就两种,即要么成功要么失败,但你依然会忍不住去估计他创业成功的几率有多大?你如果对他为人比较了解,而且有方法、思路清晰、有毅力、且能团结周围的人,你会不由自主的估计他创业成功的几率可能在80%以上。这种不同于最开始的“非黑即白、非0即1”的思考方式,便是贝叶斯式的思考方式。

    贝叶斯派既然把看做是一个随机变量,所以要计算的分布,便得事先知道的无条件分布,即在有样本之前(或观察到X之前),有着怎样的分布呢?

比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布,或的无条件分布。

贝叶斯派认为待估计的参数是随机变量,服从一定的分布,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。

贝叶斯及贝叶斯派思考问题的固定模式

先验分布 + 样本信息  后验分布

上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对的认知是先验分布,在得到新的样本信息后,人们对的认知为

其中,先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决,解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率θ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从而省去大量的人力物力。

而后验分布一般也认为是在给定样本的情况下的条件分布,而使达到最大的值称为最大后验估计。

皮皮blog



贝叶斯定理

条件概率

条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。

联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者

边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。

贝叶斯定理

贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

在参数估计中可以写成下面这样:


这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即

在贝叶斯定理中,每个名词都有约定俗成的名称:

P(A)是A的先验概率或 边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的 条件概率(在B发生的情况下A发生的可能性),也由于得自B的取值而被称作 A的后验概率
P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率,也作 标准化常量(normalized constant).

按这些术语,Bayes定理可表述为:

后验概率 = (相似度*先验概率)/标准化常量,也就是说,后验概率与先验概率和相似度的乘积成正比。

另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:

后验概率 = 标准相似度*先验概率

贝叶斯估计的例子

假设中国的大学只有两种:理工科和文科,这两种学校数量的比例是1:1,其中,理工科男女比例7:1,文科男女比例1:7。某天你被外星人随机扔到一个校园,问你该学校可能的男女比例是多少?然后,你实际到该校园里逛了一圈,看到的5个人全是男的,这时候再次问你这个校园的男女比例是多少?

  1. 因为刚开始时,有先验知识,所以该学校的男女比例要么是7:1,要么是1:7,即P(比例为7:1) = 1/2,P(比例为1:7) = 1/2。
  2. 然后看到5个男生后重新估计男女比例,其实就是求P(比例7:1|5个男生)= ?,P(比例1:7|5个男生) = ?
  3. 用贝叶斯公式,可得:P(比例7:1|5个男生) = P(比例7:1)*P(5个男生|比例7:1) / P(5个男生),P(5个男生)是5个男生的先验概率,与学校无关,所以是个常数;类似的,P(比例1:7|5个男生) = P((比例1:7)*P(5个男生|比例1:7)/P(5个男生)。
  4. 最后将上述两个等式比一下,可得:P(比例7:1|5个男生)/P(比例1:7|5个男生) = {P((比例7:1)*P(5个男生|比例7:1)} / { P(比例1:7)*P(5个男生|比例1:7)}。

频率派与贝叶斯派的区别

    频率派把需要推断的参数θ看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
    贝叶斯派的观点则截然相反,他们认为参数是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。

两者的本质区别

根据贝叶斯法则:

               posterior=likelihoodpriorevidence

               p(ϑ|X)=p(X|ϑ)p(ϑ)p(X)

在MLE和MAP中,由于是要求函数最大值时的参数,所以都不会考虑evidence。但在贝叶斯估计中,不再直接取极值,所以还会考虑evidence,下面的这个积分也是通常贝叶斯估计中最难处理的部分:

               p(X)=ϑΘp(X|ϑ)p(ϑ)dϑ

evidence相当于对所有的似然概率积分或求和(离散时),所以也称作边界似然

估计未知参数所采用的思想不同的例子

我去一朋友家:

    按照频率派的思想,我估计他在家的概率是1/2,不在家的概率也是1/2,是个定值。

    按照贝叶斯派的思想,他在家不在家的概率不再认为是个定值1/2,而是随机变量。比如按照我们的经验(比如当天周末),猜测他在家的概率是0.6,但这个0.6不是说就是完全确定的,也有可能是0.7。如此,贝叶斯派没法确切给出参数的确定值(0.3,0.4,0.6,0.7,0.8,0.9都有可能),但至少明白哪些取值(0.6,0.7,0.8,0.9)更有可能,哪些取值(0.3,0.4) 不太可能。进一步,贝叶斯估计中,参数的多个估计值服从一定的先验分布,而后根据实践获得的数据(例如周末不断跑他家),不断修正之前的参数估计,从先验分布慢慢过渡到后验分布。

各种参数估计方法可以参考Heinrich论文的第二部分。

[[各种参数估计方法的论述:Gregor Heinrich.Parameter estimation for text analysis*]

数理统计学简史》

《统计决策论及贝叶斯分析 James O.Berger著》

[概率图模型  原理与技术[(美)科勒,(以)弗里德曼著]*

[ 机器学习之用Python从零实现贝叶斯分类器]]

皮皮blog


贝叶斯估计

    贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计,都求出了参数theta的值,而贝叶斯推断则不是,贝叶斯推断扩展了极大后验概率估计MAP(一个是等于,一个是约等于)方法,它根据参数的先验分布P(theta)和一系列观察X,求出参数theta的后验分布P(theta|X),然后求出theta的期望值,作为其最终值。另外还定义了参数的一个方差量,来评估参数估计的准确程度或者置信度。

贝叶斯公式


现在不是要求后验概率最大,这样就需要求,即观察到的evidence的概率,由全概率公式展开可得


当新的数据被观察到时,后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

用贝叶斯估计来做预测

如果我们想求一个新值的概率,可以由下面公式来计算。


此时第二项因子在上的积分不再等于1,这就是和MLE及MAP很大的不同点。

扔硬币的伯努利实验示例

跟上面极大后验概率例子一样,N次伯努利实验,参数p(即正面的概率)的先验分布是参数为(5,5)的beta分布,然后接下来,我们根据参数p的先验分布和N次伯努利实验结果来求p的后验分布。我们假设先验分布为Beta分布,但是构造贝叶斯估计时,不是要求用后验最大时的参数来近似作为参数值,而是求满足Beta分布的参数p的期望,也就是直接写出参数的分布再来求分布的期望,有

Note:

1 C是所有实验结果的集合Ci=1或者0。

2

3 这里用到了公式


4 推导也可参考[ 主题模型TopicModel:LDA中的数学模型:Beta-Binomial 共轭部分]

    根据结果可以知道,根据贝叶斯估计,参数p服从一个新的Beta分布。回忆一下,我们为p选取的先验分布是Beta分布,然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布,由此我们说二项分布和Beta分布是共轭分布。当T为二维的情形可以对Beta分布来应用;T为多维的情形可以对狄利克雷分布应用。

根据Beta分布的期望和方差计算公式,我们有



可以看出此时估计的p的期望和MLE ,MAP中得到的估计值都不同,此时如果仍然是做20次实验,12次正面,8次反面,那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布,其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小,更加接近0.5。

皮皮blog


贝叶斯参数估计

贝叶斯方法中,把参数视为影响所有训练实例概率的未观测变量。于是学习相当于根据观测来计算新样本的概率,这种学习可以通过计算参数上的后验概率(分母也要计算出来?)来执行,且使用它进行预测。

而MAP后验估计是根据最大的p(theta | X)来计算新样本的概率?

图钉和硬币示例


联合概率模型

将贝叶斯学习视为包含所有实例和参数中所有变量的meta-网中的推理问题。计算未来事件的概率相当于给定前M个观测实例时,关于第M+1个实例的后验概率执行查询。

用一个概率分布来表示参数theta的先验知识,在theta和观测的数据X上建立一个联合分布。(也就是将theta也当成一个随机变量,而不是一个待估参数)

theta固定时,不同抛掷间的条件独立;theta未知时,每次抛掷都可以传递一些有关参数theta的信息,不同抛掷间的边缘独立性不成立。这种直观和贝叶斯网的独立性是一致的!


Note:X的每次取值代表每次抛掷的不同结果。

参数和数据的联合分布


Note: 公式与MLE唯一的区别只在于多了一个P(theta)。也要注意其和贝叶斯网的MLE估计的区别[]。

联合分布、后验分布和似然、先验的联系


预测:贝叶斯估计子预测和拉普拉斯校正

给定前M次抛掷的结果来推理第M+1次抛掷的值。

Note: 公式推导中P(x[M+1] = x1 | theta) 就是theta; P(x...)仅是一个归一化因子,不用直接计算,分别计算X[]=x1和x0再相加就可以了。

贝叶斯估计子预测公式推导:



先验

非均匀的先验分布

选择beta分布作为伯努利分布的先验


[概率论:常见概率分布]

共轭性质


先验强度与样本量:先验分布对参数估计的影响


先验分布与后验分布

参数和数据的联合分布

先验和后验的形式

对某些概率模型,似然函数可以用充分统计量紧凑表示。而这里,后验分布同样也可以紧凑表示,而这就取决于先验的形式。如先验分布为beta分布,那么二项式分布的数据的后验分布也是紧凑的beta分布;先验分布为dirichlet分布,那么多项式分布的数据的后验分布也是紧凑的dirichlet分布。


共轭


后验概率分布的作用:确定模型属性(如偏置)和预测新数据

Dirichlet先验

先验强度alpha和先验均值theta‘

直观上,当我们有一个很大的训练集时,先验的作用是可以忽略不计的。

先验强度和均值对估计的影响

可以看到,这种先验起到了平滑的效果,导致了更加鲁棒的估计

Note: 另先验可以避免overfitting,这是因为先验带来的伪计数减小了训练数据的偏倚

先验不能使用极值估计

实际为0的概率的估计是很危险的,因为无论多大量的证据都无法改变它们。


[《Probabilistic Graphical Models:Principles and Techniques》(简称PGM)]

from: http://blog.csdn.net/pipisorry/article/details/51471222

ref:  [天真的贝叶斯,神奇的贝叶斯方法]


©️2021 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页

打赏作者

-柚子皮-

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值