极大似然原理:
假设从一个篮子里摸球,已知篮子里黑球与白球的比例是3:1或1:3,摸了5次得到的结果分别是黑、黑、白、黑、黑。问黑球所占的比例是多少?
如果我们什么都没学,按照常识,看起来黑球的比例应当为3/4,白球的比例为1/4,因为从结果来看黑球出现的概率比白球高。这个“看起来”就是所谓的极大似然原理。我们可以计算一下
假设黑球的比例为3/4,那么摸了5次后,得到上述结果的概率为
假设黑球的比例为1/4,那么摸了5次后,得到上述结果的概率为
显然前者发生的可能性更大,因此黑球的比例应当是3/4。
推广到更一般化,对于一个独立的离散型随机变量(这里暂不考虑连续型,但原理几乎一模一样),设表示给定某一参数后,随机变量发生的概率。那么,对于观测到随机变量的值{、......}(这个事件已经发生并且得到结果了,称其为事件A),可计算出他们各自发生的概率为、、......。由于它们是相互独立的,因此事件A发生的概率是
把上式的改成,即
该式被称为似然函数,它含有一个自变量,我们要求的,就是当取得最大值时,的值,该值用表示,通常的做法是求导数令其等于0,即可得到解。
回到上面的例子,实际上只有两个取值:分别是3/4和1/4,因此只需要算出所有的情况,选择似然函数值最大的那个,就得到了最终结果。
最大后验估计:
对于某个估计问题,假设某个模型的参数取1、2、3,观测到的随机变量X。
则根据贝叶斯公式,有
表示当观察到随机变量X时,=1的概率。我们假设这个概率为0.2,即
同样的,我们假设
那最大后验估计,就是指当X给定时,取各个值的可能性,再从这些可能性中取最大的。在这里,我们很容易观察到,应当等于2。极大似然的思想是只有一个固定值,这个固定值使得最大,即最大化事件X发生的概率。最大后验估计的思想是可能有很多个值(服从某一分布),即X发生的前提下,模型参数=1的概率是0.2,=2的概率是0.5,=3的概率是0.3,取那个使最大的值,即最大化取值的可能性。