本文主要是根据笔者对@Duaaxx关于贝叶斯回归的博客的笔记。建议阅读原文,质量非常高。
最大似然与最大后验
确定概率密度分布需要知道两个参数:概率密度模型 以及 模型参数。也即在估计概率密度分布的时候不仅仅是对参数的估计,首先需要确定模型,然后才是参数估计。
最大似然与最大后验的区别:
最大似然把模型参数θ作为一个位置且固定的数,我们需要做的是算出这个固定的值,这里的θ本身不是一个概率分布。
最大后验是θ的函数,对θ的概率分布,这里的θ不是一个值,而是一个概率分布。
最大似然是在θ是一个值的时候找到它,而最大后验是在θ有很多取值的情况下找到最可能的θ。
最大似然估计是基于已知样本集得到的估计,所以容易对当前样本集产生过拟合(详见PRML第108页)。
最大似然是需要对所有的已知样本进行概率计算,并且进行连乘,对连乘得到的概率最大以求得对整个已知样本集的整体loss最小(详见PRML第103页)。最大后验我猜测是对当前需要预测的样本进行后验概率的最大化,所以最大似然有连乘但最大后验却没有最大似然的物理意义:最大似然就是在模型已知的情况下,找到一个参数θ使得在这个参数θ下对已知样本集的预测与已知样本集真实标签最接近。这里最大化的目标是最小化在已知样本集上预测值与真实值之间的差异。这么做的基于的假设是:在已知样本集上预测的很好,那么在未知的样本上依然可以比较好。
最大后验的物理意义:最大后验是对P(θ|X)的最大化(对θ的概率的最大化),通过最大