先验概率后验概率似然极大似然估计极大后验估计共轭概念

最新推荐文章于 2024-11-18 15:28:31 发布

hxxiaopei

最新推荐文章于 2024-11-18 15:28:31 发布

阅读量1.5w

点赞数 5

分类专栏：自然语言处理机器学习文章标签： n2

本文链接：https://blog.csdn.net/hxxiaopei/article/details/8034184

版权

自然语言处理同时被 2 个专栏收录

11 篇文章

订阅专栏

机器学习

7 篇文章

订阅专栏

最近在看LDA，里面涉及到狄利克雷的概念，为了把这个事情搞明白，查了一些相关概率知识，

举个例子，掷硬币，伯努利实验中随机变量x={正面,背面}，正面的概率μ为模型参数，假定做了N次试验，Data 中观察序列为X={正面，正面。。。。反面}，正面的次数为k，服从二项分布: p(X|μ)∼pk∗(1−P)(N−k)
P(X|μ) 则成为似然函数。
针对观察到的随机变量(也就是Data)X，以及模型参数μ：
P(X|μ)为μ的似然函数，描述的是该观察集合以多大的概率由μ产生
P(μ)为μ的先验概率，这个概率是经验的总结，和实验无关
P(μ|α)为μ的先验概率，依赖于模型参数α，刻画了在α的情况下，参数(概率)μ出现的概率
P(μ|X)为μ的后验概率，描述给定数据X的情况下，模型参数=μ的概率，μ可以有很多取值。
我们现在的问题是，根据实验Data X，估计模型参数μ，很显然，我们想到极大似然估计：
P(X|μ)，求解参数μ，使得观察data的概率最大，也就是说找到最有可能产生Data的模型参数。

p(X|μ)∼∏xip(xi|μ)=pk(1−p)N−k

求其一阶导数，采用梯度下降法，令其导数为0，可以求出p= k/n,符合我们的期望。这就是似然函数以及极大似然估计的概念。

'现在有一个问题: 如果N的次数不够大，比如我就做了1次试验，碰巧是正面，结果就是p=1，得出正面概率为1的谬论。很显然，对抛硬币，我们有一定的先验，比如抛10次，应该有5次，或者4-6次是正面，也就是有先验概率p=0.4~0.6.

我们不禁想，如果先验概率 p(μ|α) 和似然函数的形式一样，也是 p(μ|α)=μa(1−μ)b ，那么后验概率的形式也是是这个形式： p(μ|X)∼μa+k(1−μ)b+N−k ，看起来非常简洁，简洁就是美:)。
这就是共轭先验，不对其概念做很准确的描述，直白一点，就是先验和似然有相同的分布，从而后验也有相同的分布。

补充一句，prml所言，共轭先验，是分布的分布，概率的概率，如下：
假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的次数与试验总数的比值估计这个面出现的概率，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，出现这样的情况使得我们认为，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了）。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布 From : http://www.xperseverance.net/blogs/2012/03/510/

二项分布的共轭先验就是beta 分布。形式是 Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1
采用MAP极大后验计算后μ=(k+a )/(N + a + b)，加上了平滑因子 a b,如果 a=5, b=5，k=1, N=1,对应的μ=0.45，更接近我们理解上的u=0.5
所以beta分布式二项分布的共轭先验分布