先验概率和后验概率
先验概率和后验概率是在条件概率的框架下引出来的
条件概率是这样说的:事件A发生条件下事件B发生的概率为$P(B|A) = \frac{P(AB)}{P(A)}$
贝叶斯公式是关于事件A和B的条件概率的一则定理:$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$
贝叶斯公式的意义是什么?你对贝叶斯统计都有怎样的理解? - 徐炎琨的回答 - 知乎 ,这里的解释非常的好,不仅仅解释了贝叶斯公式的含义,还介绍了似然函数等等一些知识。
我们从一个例子来看先验概率和后验概率
例:对以往的数据分析结果表明当机器调整得良好时,产品的合格率为 98% , 而当机器发生某一故障时,其合格率为 55% 。每天早上机器开动时,机器调整良好的概率为 95% 。已知某天早上第一件产品是合格品,试求机器调整得良好的概率是多少?
对于这道题的解答是这样的:
解:设A为事件“产品合格”,B为事件“机器调整良好”,已知 $P(A|B)=0.98 ,P(A|\bar{B})=0.55, P(B)=0.95, P(\bar{B})=0.05$,需要求的概率为$P(B|A)$,由贝叶斯公式可以得到
$P(B|A) = \frac {P(A|B)P(B)} {P(A|B)P(B)+P(A|\bar{B})P(\bar{B})}$ = $\frac{0.98 \times 0.95}{0.98 \times 0.95 + 0.55 \times 0.05} = 0.97$
上面的例子当中就隐含了先验概率和后验概率的思想。每天早上,机器调整良好的概率为0.95,这个概率是先验概率,是统计了历史上的数据计算出来的概率,而我们算出来的 0.97,是在有了“今早第一件产品是合格品”这一信息的基础上得到的概率,是一种后验概率。
先验分布和后验分布
上面我们讲的是概率,那么我们来看分布,如果我们要研究随机变量X,那么用概率就不妥了,我们用分布,即随机变量的分布情况。但是关于先验和后验,它的道理是不变的。 先验分布是统计随机变量的以往数据而得到的分布情况。而后验分布是某个事件发生以后可以推测随机变量X的分布情况
可见,用概率和用分布仅仅是因为描述的事情不一样,前者描述单独的事件,后者描述整体分布情况。
似然函数的第一种引入情景 -- 参数估计
似然函数在参数估计当中引入的,若总体X属于离散型,假如它里面有某些变量$\theta$未知,它的分布律为$P(X=x) = p(x;\theta)$,我们需要估计出参数$\theta$,其实在这里的时候,我们可以把$\theta$当做一种因变量,是$\theta$的值决定了X的分布情况。
那么假设我们从X里面得到了一组样本$X_1,X_2,X_3,…,X_n$来估计出来$\theta$的取值的话,那么我们需要定义似然函数,即事件样本$X_1=x_1,X_2=x_2,X_3=x_3,…,X_n=x_n$ 的时候的概率:
$L(\theta) = L(x_1,x_2,x_3,…,x_n;\theta) = \prod \limits_{i=1}^{n} p(x_i;\theta) $
上面这个式子叫做似然函数,是关于$\theta$的函数。上面$x_1,x_2,x_3,…,x_n$的取值是固定的,它描述的是$X_1,X_2,X_3,…,X_n 取值为 x_1,x_2,x_3,…,x_n$的时候,我们能够预估到的$\theta$的可信度。并且这个式子最后的部分是$x_1,x_2,x_3,…,x_n$的联合概率分布。
似然函数表示的是当观察到一组事件发生的时候,我们的$\theta$的可信度是多少。
最大似然函数
似然函数是关于$\theta$的函数,$\theta$的取值不同,那么取得的概率不同,那么我们的想法是既然取得了$x_1,x_2,...,x_n$的值了,表明取得这些值的概率$L(\theta)$较大,所以我们应该取能够使概率$L(\theta)$最大的$\theta$值来当做我们的参数。这种方法就叫做最大似然函数。
求解方法:当把似然函数构造完以后,我们使用导数或者偏导数(对于多个参数)来进行求解。或者对似然函数取对数,然后进行求导,这叫做对数似然方程。
似然函数的第二种解释
若随机变量X和Y,X是因,Y是结果,
那么P(X) 叫做先验概率prior。
P(Y)叫做evidence。
P(X|Y)叫做后验概率,posterior。
P(Y|X)叫做似然, likelihood。
我们可以看到,这里的似然和条件概率其实是一样的。但是两者还是有区别的,我在这里论述一下:
似然是描述某件事情发生的可能性,而概率描述的是一个事情发生的概率。那么这又有什么不一样哪?
要看这个公式是似然还是概率,那么你需要看把那个量当做是变量。当你把X当做是变量,而Y是已经发生的常量的时候,它说的是似然,那么这个表达式说的是:在X(变量)的条件下Y已将发生这件事情的可能性。当你把X当做常量(已经确定了),而Y当做变量(即将要发生),那么这个表达式说的是:在X的条件下Y将要发生的可能性。
所以这个公式是一体两面,在计算的时候它们两个的值是相等的。
posterior = (likelihodd * prior) / evidence 即 $P(X|Y) = \frac{P(Y|X) P(X)}{P(Y)}$ 其中 $\frac{P(Y|X)}{P(Y)}$叫做标准相似度 standardised likelihood 这个公式就是贝叶斯公式。
因为$posterior \propto likelihodd * prior $我们常说的 后验概率 $ \propto $ 似然 * 先验概率。
两种解释的关系
第一种解释是它的一种经典定义,把似然当做一种关于$\theta$变量的函数,在这个基础上我们可以可以求解最大的$\theta$值,使得参数最可信,这种方法就是最大似然估计。
而第二种方法,我们可以把里面的$\theta$当做是一个数来看待,而不是当做一个变量来看待,这个数的取值就是$\theta$。
归一化
我们令D为一系列观察到的事件
后验概率 $\propto$ 似然 * 先验概率 即 $P(X|D) \propto L(\theta |D) * P(X) $ 那么什么时候两边相等哪?
其中的$ L(\theta|D) = P(D|X)$(由第一种解释中的等式可以得到) ,所以可以发现似然和条件概率密切相关。
替换以后可以得到$P(X|D) \propto P(D|X) * P(X) $ 据贝叶斯公式,式子右边除以一个P(D),两边就相等了,这个过程叫做归一化。
参考:
先验分布、后验分布、似然估计这几个概念是什么意思,它们之间的关系是什么? - 徐鹏的回答 - 知乎
What is the difference between likelihood function and posterior probability?
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
盛骤 《概率论与数理统计》7.1