Intro
学MLE时遇到这么一句话
A nice feature of this view is that we can now also interpret the
regularization term R(W) in the full loss function as coming from a
Gaussian prior over the weight matrix W, where instead of MLE we are
performing the Maximum a posteriori (MAP) estimation.
翻译过来就是:当在MLE中W是高斯先验条件时,并且加上一个正则项,我们可以看成是MAP。查了一下资料,才知道这是MLE和MAP的转换关系。
两大学派的争论
- 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
- 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)
频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
先验与后验、似然
比如我们研究一个神经网络,其网络参数 θ \theta θ是我们要求的,虽然网络参数是多维的,但对单个参数成立的话,对多维参数也成立。并且,我们对 θ \theta θ的估计在网络输出值 X = X 1 , X 2 , . . X n X={X_1,X_2,..X_n} X=X1,X2,..Xn的基础上进行。
- p ( θ ) p(\theta) p(θ)就是先验概率,即对网络的预先判断。比如我们迁移学习时,就能将被迁移的网络参数当成先验。
- p ( θ ∣ X ) p(\theta|X) p(θ∣X)就是后验概率,即 X X X产生后对 θ \theta θ的估计
- p ( X ∣ θ ) p(X|\theta) p(X∣θ)似然函数,类似于概率密度函数。
注意,无论先验、后验、似然,都是关于 θ \theta θ的函数
Maximum Likelihood Estimation
即最大似然估计。
θ ^ M L E = a r g m