必备的一些基础概念:
先验概率(prior probability) p(θ) :
先验概率是在获取某些信息前,对变量p的不确定性进行猜测,仅仅依赖主观上的经验估计,也就是事先根据已有的知识的推断。
例如,已知某学校男生占60%,女生占40%。现给定一个该学校的学生,问ta是男生还是女生。我们只能根据之前的认识,得出是男生还是女生的概率分别为0.6和0.4,这就是先验概率。
似然函数(likelihood function) p(x|θ) :
似然函数,也称作似然,是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于结果 x ,在参数集合 θ 上的似然,就是在给定这些参数值的基础上,观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的 x 的值的条件分布。
似然函数在统计推测中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来评估一组统计的参数,也就是说在一组统计方案的参数中,可以用似然函数做筛选。在非正式的语境下,“似然”会和“概率”混着用;但是严格区分的话,在统计上,二者是有不同。
不同就在于,观察值 x 与参数 θ 的不同的角色。概率是用于描述一个函数,这个函数是在给定参数值的情况下的关于观察值的函数。例如,已知一个硬币是均匀的(在抛落中,正反面的概率相等),那连续10次正面朝上的概率是多少?这是个概率。
而似然是用于在给定一个观察值时,关于用于描述参数的情况。例如,如果一个硬币在10次抛落中正面均朝上,那硬币是均匀的(在抛落中,正反面的概率相等)概率是多少?这里用了概率这个词,但是实质上是“可能性”,也就是似然了。
后验概率(posterior probability) p(θ|x) :
后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。
后验概率是关于参数 θ 在给定的证据信息 X 下的概率: p(θ|x) 。
若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布: p(x|θ) 。
我们用 p(θ) 表示概率分布函数,用 p(x|θ) 表示观测值 x 的似然函数。由贝叶斯公式,得到三者之间的关系如下:
p(θ|x)=p(x|θ)p(θ)p(x)
几个重要分布:
1、共轭分布
简单来说,如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X)有相同的形式,那么就称先验分布与似然函数是共轭分布。
共轭的意义在于是共轭特性可以使得先验分布和后验分布的形式相同,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条,后验又可以作为下一次的先验分布。
2、伯努利分布
n次伯努利分布试验中事件发生 k 次的概率是:
3、Beta分布
Beta 分布有几个重要的概念,纷纷介绍之:
1. Gamma 函数
它具有如下性质
2. Beta函数
综上,给出 Beta 分布:
3、多项分布
这里有 nk代表第 k 个事件发生的计数,且有 $N = n_1 + n_2+…+n_K$.
4、Dirichlet分布
参考:
1、http://blog.csdn.net/u010140338/article/details/41344853
2、http://www.cnblogs.com/wjgaas/p/4523779.html
3、http://www.cnblogs.com/ooon/p/5845917.html