极大似然估计(Maximum Likelihood Estimate,MLE)
思想精髓:存在的即是最合理的。在假设数据{X,Y}服从分布P(X,Y|),寻找最能解释数据集的参数
,从而使得分布
能够最好地刻画数据集.
一般流程:
step -1. 假设数据集的分布为P(X,Y|),其中
表示确定的参数;
step -2. 求解如下的优化问题:
最大后验估计(Maximum A Posteriori,MAP)
思想精髓:分布P(X,Y|)中设计的模型参数
本身也服从一个分布P(
),该分布一般来源于在实际生活中,人们所积累的对于类似的事件的一些认知,因此,可以有效地将人对于事物的认知进行编码,尽管有时候这种认知可能与真实的情况有所偏差。
一般流程:
step - 1:假设数据集的分布为P(X,Y|),其中
表示模型中涉及到的参数;
step - 2:根据过往经验、认知,给出参数可能服从的先验分布P(
);
step - 3: 结合数据集{X,Y},以及过往经验P(),求解:
MLE vs. MAP
- 首先,从上述的叙述中,我们不难发现,MLE在求解的时候,完全相信数据,不加入人的先验认知,认为需要求解的模型参数
就是一个确定的参数;MAP则不然,它认为
本身服从某个分布,而且这个可以将人对该事物的认知嵌入、编码到参数所服从的假设分布中,然后再结合似然函数、先验分布来选择出现概率最大的参数
。
- 其次,在小样本情形下,MAP由于借助先验信息,往往可以得到更加合乎情理的解;MLE则仅仅依靠数据,有可能会得到一些看似不符合我们常识的解。eg:抛一枚硬币3次,发现都是正面,MLE的结果是硬币出现正面的概率等于1。在大样本的情形下,二者的差异往往微乎其微。(读者可以思考一下其中的原因……)
- 最后,从本质上来看,MLE其实可以看做一种特殊的MAP,即在MAP框架中,如果参数的先验为均匀分布时,MAP框架退化为MLE框架。
抛硬币实例
在抛硬币的游戏中,假定抛一枚硬币N次,其中出现正面n1次,出现反面n0次。基于以上的观察数据,估计硬币正面朝上的概率。
MLE框架的求解流程:
分析:由于抛一次硬币只会出现正面或反面两种情况,因此相当于进行一次伯努利实验。假设出现正面的概率为 ,则伯努利实验的结果服从如下的伯努利分布:
抛N次硬币相当于进行N重伯努利实验,出现正面的次数n服从二项分布B(N,)。特别地,对于观测数据而言,相应的似然函数为:
求解可得:,即观测数据中出现正面的次数在总观测次数中的占比。这个解在小样本的观测集中可能会不符合我们的常识。eg:抛一枚硬币3次,发现都是正面,MLE的结果是硬币出现正面的概率等于1。
MAP框架的求解流程:
假设出现正面的概率为,其中参数
服从Beta分布,即:
下图为在不同参数
下的概率分布图:
这里之所以选择的先验分布为Beta分布,是因为Beta分布和二项分布互为共轭分布,这样可以使得得到的后验分布与先验分布具有相同的形式。基于似然函数与先验分布,我们可以得到
的后验分布为:
取对数可得:
求解得.对比MLE与MAP的解,可以看到MAP的解包含了先验的信息在里面;其实换个角度,也可以将先验理解为一系列的“虚拟”实验,加入先验信息,意味着往观测数据集中加入“虚拟”数据。