参数估计：贝叶斯思想和贝叶斯参数估计

最新推荐文章于 2024-06-30 17:30:00 发布

-柚子皮-

最新推荐文章于 2024-06-30 17:30:00 发布

阅读量6.1w

点赞数 48

分类专栏：概率图模型机器学习文章标签：贝叶斯思想

本文链接：https://blog.csdn.net/pipisorry/article/details/51471222

版权

机器学习同时被 2 个专栏收录

54 篇文章

订阅专栏

概率图模型

26 篇文章

订阅专栏

http://blog.csdn.net/pipisorry/article/details/51471222

贝叶斯与频率派思想

频率派思想

长久以来，人们对一件事情发生或不发生，只有固定的0和1，即要么发生，要么不发生，从来不会去考虑某件事情发生的概率有多大，不发生的概率又是多大。而且事情发生或不发生的概率虽然未知，但最起码是一个确定的值。

比如如果问那时的人们一个问题：“有一个袋子，里面装着若干个白球和黑球，请问从袋子中取得白球的概率是多少？”他们会立马告诉你，取出白球的概率就是1/2，要么取到白球，要么取不到白球，即θ只能有一个值，而且不论你取了多少次，取得白球的概率θ始终都是1/2，即不随观察结果X 的变化而变化。

这种频率派的观点长期统治着人们的观念，直到后来一个名叫Thomas Bayes的人物出现。

频率派把需要推断的参数θ看做是固定的未知常数，即概率虽然是未知的，但最起码是确定的一个值，同时，样本X 是随机的，所以频率派重点研究样本空间，大部分的概率计算都是针对样本X 的分布；

最大似然估计(MLE)和最大后验估计(MAP)都是把待估计的参数看作一个拥有固定值的变量，只是取值未知。通常估计的方法都是找使得相应的函数最大时的参数；由于MAP相比于MLE会考虑先验分布的影响，所以MAP也会有超参数，它的超参数代表的是一种信念(belief)，会影响推断(inference)的结果。比如说抛硬币，如果我先假设是公平的硬币，这也是一种归纳偏置(bias)，那么最终推断的结果会受我们预先假设的影响。

贝叶斯思想

回到上面的例子：“有一个袋子，里面装着若干个白球和黑球，请问从袋子中取得白球的概率θ是多少？”贝叶斯认为取得白球的概率是个不确定的值，因为其中含有机遇的成分。比如，一个朋友创业，你明明知道创业的结果就两种，即要么成功要么失败，但你依然会忍不住去估计他创业成功的几率有多大？你如果对他为人比较了解，而且有方法、思路清晰、有毅力、且能团结周围的人，你会不由自主的估计他创业成功的几率可能在80%以上。这种不同于最开始的“非黑即白、非0即1”的思考方式，便是贝叶斯式的思考方式。

贝叶斯派既然把看做是一个随机变量，所以要计算的分布，便得事先知道的无条件分布，即在有样本之前（或观察到X之前），有着怎样的分布呢？

比如往台球桌上扔一个球，这个球落会落在何处呢？如果是不偏不倚的把球抛出去，那么此球落在台球桌上的任一位置都有着相同的机会，即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布，或的无条件分布。

贝叶斯派认为待估计的参数是随机变量，服从一定的分布，而样本X 是固定的，由于样本是固定的，所以他们重点研究的是参数的分布。

贝叶斯及贝叶斯派思考问题的固定模式

先验分布 + 样本信息后验分布

上述思考模式意味着，新观察到的样本信息将修正人们以前对事物的认知。换言之，在得到新的样本信息之前，人们对的认知是先验分布，在得到新的样本信息后，人们对的认知为。

其中，先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决，解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如，某工厂每天都要对产品进行质检，以评估产品的不合格率θ，经过一段时间后便会积累大量的历史资料，这些历史资料便是先验知识，有了这些先验知识，便在决定对一个产品是否需要每天质检时便有了依据，如果以往的历史资料显示，某产品的不合格率只有0.01%，便可视为信得过产品或免检产品，只每月抽检一两次，从而省去大量的人力物力。

而后验分布一般也认为是在给定样本的情况下的条件分布，而使达到最大的值称为最大后验估计。

皮皮blog

贝叶斯定理

条件概率

条件概率（又称后验概率）就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B)，读作“在B条件下A的概率”。

联合概率表示两个事件共同发生的概率。A与B的联合概率表示为或者。

边缘概率（又称先验概率）是某个事件发生的概率。边缘概率是这样得到的：在联合概率中，把最终结果中那些不需要的事件通过合并成它们的全概率，而消去它们（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率），这称为边缘化（marginalization），比如A的边缘概率表示为P(A)，B的边缘概率表示为P(B)。

贝叶斯定理

贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

$P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}$

在参数估计中可以写成下面这样：

$p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)}$

这个公式也称为逆概率公式，可以将后验概率转化为基于似然函数和先验概率的计算表达式，即

$posterior = \frac{likelihood \cdot prior}{evidence}$

在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率(在B发生的情况下A发生的可能性)，也由于得自B的取值而被称作 A的后验概率。
P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）.

按这些术语，Bayes定理可表述为：

后验概率 = (相似度*先验概率)/标准化常量，也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood），Bayes定理可表述为：

后验概率 = 标准相似度*先验概率

贝叶斯估计的例子

假设中国的大学只有两种：理工科和文科，这两种学校数量的比例是1:1，其中，理工科男女比例7:1，文科男女比例1:7。某天你被外星人随机扔到一个校园，问你该学校可能的男女比例是多少？然后，你实际到该校园里逛了一圈，看到的5个人全是男的，这时候再次问你这个校园的男女比例是多少？

因为刚开始时，有先验知识，所以该学校的男女比例要么是7:1，要么是1:7，即P(比例为7:1) = 1/2，P(比例为1:7) = 1/2。
然后看到5个男生后重新估计男女比例，其实就是求P(比例7:1|5个男生）= ？，P(比例1:7|5个男生) = ？
用贝叶斯公式，可得：P(比例7:1|5个男生) = P(比例7:1)*P(5个男生|比例7:1) / P(5个男生)，P(5个男生)是5个男生的先验概率，与学校无关，所以是个常数；类似的，P(比例1:7|5个男生) = P((比例1:7)*P(5个男生|比例1:7)/P(5个男生)。
最后将上述两个等式比一下，可得：P(比例7:1|5个男生)/P(比例1:7|5个男生) = {P((比例7:1)*P(5个男生|比例7:1)} / { P(比例1:7)*P(5个男生|比例1:7)}。

频率派与贝叶斯派的区别

频率派把需要推断的参数θ看做是固定的未知常数，即概率虽然是未知的，但最起码是确定的一个值，同时，样本X 是随机的，所以频率派重点研究样本空间，大部分的概率计算都是针对样本X 的分布；
贝叶斯派的观点则截然相反，他们认为参数是随机变量，而样本X 是固定的，由于样本是固定的，所以他们重点研究的是参数的分布。

两者的本质区别

根据贝叶斯法则：

posterior=likelihood⋅priorevidence

即

p(ϑ|X)=p(X|ϑ)⋅p(ϑ)p(X)

在MLE和MAP中，由于是要求函数最大值时的参数，所以都不会考虑evidence。但在贝叶斯估计中，不再直接取极值，所以还会考虑evidence，下面的这个积分也是通常贝叶斯估计中最难处理的部分：

p(X)=∫ϑ∈Θp(X|ϑ)p(ϑ)dϑ

evidence相当于对所有的似然概率积分或求和(离散时)，所以也称作边界似然。

估计未知参数所采用的思想不同的例子

我去一朋友家：

按照频率派的思想，我估计他在家的概率是1/2，不在家的概率也是1/2，是个定值。

按照贝叶斯派的思想，他在家不在家的概率不再认为是个定值1/2，而是随机变量。比如按照我们的经验（比如当天周末），猜测他在家的概率是0.6，但这个0.6不是说就是完全确定的，也有可能是0.7。如此，贝叶斯派没法确切给出参数的确定值（0.3,0.4，0.6,0.7，0.8,0.9都有可能），但至少明白哪些取值（0.6,0.7，0.8,0.9）更有可能，哪些取值（0.3,0.4）不太可能。进一步，贝叶斯估计中，参数的多个估计值服从一定的先验分布，而后根据实践获得的数据（例如周末不断跑他家），不断修正之前的参数估计，从先验分布慢慢过渡到后验分布。

各种参数估计方法可以参考Heinrich论文的第二部分。

[[各种参数估计方法的论述：Gregor Heinrich.Parameter estimation for text analysis*]

数理统计学简史》

《统计决策论及贝叶斯分析 James O.Berger著》

[概率图模型原理与技术[（美）科勒，（以）弗里德曼著]*

[ 机器学习之用Python从零实现贝叶斯分类器]]

皮皮blog

贝叶斯估计

贝叶斯估计是在MAP上做进一步拓展，此时不直接估计参数的值，而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计，都求出了参数theta的值，而贝叶斯推断则不是，贝叶斯推断扩展了极大后验概率估计MAP（一个是等于，一个是约等于）方法，它根据参数的先验分布P(theta)和一系列观察X，求出参数theta的后验分布P(theta|X)，然后求出theta的期望值，作为其最终值。另外还定义了参数的一个方差量，来评估参数估计的准确程度或者置信度。

贝叶斯公式

$p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)}$

现在不是要求后验概率最大，这样就需要求 $p(X)$ ,即观察到的evidence的概率，由全概率公式展开可得

$p(X) = \int_{\theta \in \Theta}p(X|\theta)p(\theta)d\theta$

当新的数据被观察到时，后验概率可以自动随之调整。但是通常这个全概率的求法是贝叶斯估计比较有技巧性的地方。

用贝叶斯估计来做预测

如果我们想求一个新值 $\hat{x}$ 的概率，可以由下面公式来计算。

$p(\hat{x}|X) = \int_{\theta \in \Theta} p(\hat{x} | \theta)p(\theta|X)d\theta=\int_{\theta \in \Theta}p(\hat{x}|\theta)\frac{p(X|\theta)p(\theta)}{p(X)}d\theta$

此时第二项因子在 $\theta \in \Theta$ 上的积分不再等于1，这就是和MLE及MAP很大的不同点。

扔硬币的伯努利实验示例

跟上面极大后验概率例子一样，N次伯努利实验，参数p（即正面的概率）的先验分布是参数为（5,5）的beta分布，然后接下来，我们根据参数p的先验分布和N次伯努利实验结果来求p的后验分布。我们假设先验分布为Beta分布，但是构造贝叶斯估计时，不是要求用后验最大时的参数来近似作为参数值，而是求满足Beta分布的参数p的期望，也就是直接写出参数的分布再来求分布的期望，有

Note:

1 C是所有实验结果的集合Ci=1或者0。

3 这里用到了公式

$\int_p\prod_{t=1}^{|T|}P_t^{\alpha_t - 1} = B(\alpha)$

4 推导也可参考[ 主题模型TopicModel：LDA中的数学模型：Beta-Binomial 共轭部分]

根据结果可以知道，根据贝叶斯估计，参数p服从一个新的Beta分布。回忆一下，我们为p选取的先验分布是Beta分布，然后以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布，由此我们说二项分布和Beta分布是共轭分布。当T为二维的情形可以对Beta分布来应用；T为多维的情形可以对狄利克雷分布应用。

根据Beta分布的期望和方差计算公式，我们有

可以看出此时估计的p的期望和MLE ，MAP中得到的估计值都不同，此时如果仍然是做20次实验，12次正面，8次反面，那么我们根据贝叶斯估计得到的p满足参数为12+5和8+5的Beta分布，其均值和方差分别是17/30=0.567, 17*13/(31*30^2)=0.0079。可以看到此时求出的p的期望比MLE和MAP得到的估计值都小，更加接近0.5。

皮皮blog