理论
- 最大似然估计
- 最大后验估计
- 记录n次随机试验 Ω={ω1,⋯,ωn}出现正面的次数为m假设正面出现的概率为 θ=p(正面)
那么产生随机试验结果的概率为:
p(Ω|θ)
式中 θ为自变量,频率学派认为这个概率θ最优解应该使得取最大值。在假设了正面出现的概率后,同时假设样本产生是有顺序,而且是独立同分布的,那么可以计算出现实验结果 Ω
概率的具体形式:p(Ω|θ)=θm(1−θ)n−m
求解上述以 θ为自变量的函数的最大值:
式中为了方便计算将概率修改为了对数形式:
求其最小值,对于抛硬币问题来讲
f(θ)=mlog(θ)+(n−m)log(1−θ)
p(θ|m)为后验
p(m|θ) 为似然
p(θ)为先验
后验概率 = 先验概率 + 数据信息
先验概率是什么意思,假设为了估计此次投掷硬币为正面的概率,我先用的自己的硬币做了 n=4 次实验,正面出现了 m=2 次,假设此时正面概率为 x,那么出现这种情况的概率为:
constant 为归一化常数,称为 Beta 函数
到此为止,我们都在描述 x 的分布,也就是硬币为正面概率的分布,可以看到使用我自己的硬币估计时,取得 0.5 的概率是最大的:
这个概率的分布可以作为我们的先验分布,它是概率的概率。以这个先验分布,我们去估计其他硬币的实验,假设使用另一枚硬币,抛 4 次,出现正面为 p=1 次,出现反面为 q=3 次,那么在贝叶斯理论下出现正面的概率为:
此时硬币概率最大值为 0.375,这里的数值很重要,我们以最大似然估计估计的硬币概率是 0.25,此时是没有先验分布的,如果引入了先验分布,取得正面概率应该为 0.375。而我们抛硬币的次数仅为 4 次,因此很大可能出现偏差,而先验概率的引入则可以纠正这种偏差。从另一个角度来看相当于在最大似然估计的基础上加入了正则化项,这称为最大后验估计(MAP