最近一直在搞懂啥是MLE,啥是MAP。
MLE,最大似然估计,优化的是,求出它的最大值,其中是参数,D是数据;
MAP,最大后验概率分布,优化的是,其中是参数,D是数据,通过贝叶斯定理可以认为等价于求,其中就是MLE,是先验分布。一般来说,这样就推导完了。MAP可以认为是MLE在多加一个先验概率,即在优化之前我们所掌握的信息。然后就是千篇一律的扔硬币举例,反正现在我明白MAP与MLE之间的关系了,但是我还是想不明白,MLE到底是什么鬼?为什么通过MLE可以完成优化?
是啥?最通俗的讲,对于一个数据集,是先有一个模型,然后这个模型产生了这个数据分布。我们要从参数集合中挑选出一组参数,使得选定的模型应用这个参数后产生这个数据集的概率最大。打个比方:一个模型(叫他盘古吧),产生了一堆数据,一天,考古学家:逻辑回归,LSTM,GRU 发现了这堆数据,并用出自己的本领