1.极大似然估计
给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已知,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 极大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大
即:
MLE的具体算法由概率论的知识可以解决,此处略去。
2.最大后验概率
MLE找的是一组能够使似然函数最大的参数,而MAP给参数施加了一个先验(例如在抛硬币的时候,我们认为出现正面的概率应该接近0.5)。
MAP试图优化下式:
两个方法之间的关系可以由贝叶斯公式导出:
当参数的后验P(theta)服从均匀分布的时候,MLE=MAP。MAP可以看做是正则化后的MLE。
MLE(频率学派)认为参数theta是一个未知的常量,需要从数据中估计出来。
MAP(贝叶斯学派)认为参数theta是一个随机变量,服从一个概率分布
MLE的缺点是如果数据集太小会出现过拟合。
MAP的缺点是使用不同的先验会得到不同的结果。