【笔记】贝叶斯估计(Bayesian Estimation)

机器学习中经验风险最小化结构风险最小化分别对应最大似然估计最大后验估计

1. 极大似然估计

在这里插入图片描述
L ( θ ; x ) = f ( x ; θ ) = f ( x 1 , . . . , x n ; θ ) = ∏ N f ( x ; θ ) θ ^ M L = arg max ⁡ θ L ( θ ; x ) = arg max ⁡ θ ∏ N f ( x ; θ ) L(\theta;x)=f(x;\theta)=f(x_1,...,x_n;\theta)=\prod_Nf(x;\theta)\\\hat{\theta}_{ML}=\argmax_\theta L(\theta;x)=\argmax_\theta\prod_Nf(x;\theta) L(θ;x)=f(x;θ)=f(x1,...,xn;θ)=Nf(x;θ)θ^ML=θargmaxL(θ;x)=θargmaxNf(x;θ)
另外,对数似然不会改变 argmax函数解,而且还可以将积变成和的形式
θ ^ M L = arg max ⁡ θ ∑ N l o g f ( x i ; θ ) \hat{\theta}_{ML}=\argmax_{\theta} \sum_N logf(x_i;\theta) θ^ML=θargmaxNlogf(xi;θ)
再进一步,似然函数除以m也不会改变解,所以可以写为:
θ ^ M L = arg max ⁡ θ E [ l o g f ( x ; θ ) ] \hat{\theta}_{ML}=\argmax_{\theta}\mathbb{E}[ logf(x;\theta)] θ^ML=θargmaxE[logf(x;θ)]

KL散度: 衡量经验分布f与模型分布F的log差异
D K L ( F ∣ ∣ f ) = E [ l o g F ( x ; θ ) − l o g f ( x ; θ ) ] D_{KL}(F||f)=\mathbb{E}[logF(x;\theta)-logf(x;\theta)] DKL(Ff)=E[logF(x;θ)logf(x;θ)]
左边一项仅涉及到数据生成过程,和模型无关。这意味着当我们训练模型最小化 KL
散度时,我们只需要最小化
− E [ l o g f ( x ; θ ) ] -\mathbb{E}[logf(x;\theta)] E[logf(x;θ)]
所以从最小化KL散度的角度,也可以得到最大似然估计。

1.2 条件对数似然

最大似然估计很容易扩展到估计条件概率 P(y | x;θ),从而给定 x 预测 y 。
θ M L = arg max ⁡ θ P ( Y ∣ X ; θ ) {\theta}_{ML}=\argmax_{\theta}P(Y|X;\theta) θML=θargmaxP(YX;θ)
样本 X = { x 1 , . . . , x n } X=\{x_1,...,x_n\} X={x1,...,xn}独立同分布,用对数似然函数表示:
θ M L = arg max ⁡ θ ∑ N l o g P ( y i ∣ x i ; θ ) \theta_{ML}=\argmax_{\theta}\sum_NlogP(y_i|x_i;\theta) θML=θargmaxNlogP(yixi;θ)

2. 贝叶斯估计

贝叶斯公式
在这里插入图片描述

贝叶斯估计:
在这里插入图片描述
其中,
π ( θ ) \pi(\theta) π(θ) θ \theta θ先验分布(prior distribution),表示对参数 θ \theta θ的主观认识,非样本信息。贝叶斯派认为参数不是确定的,所以用随机变量表示,并且服从某个分布;
π ( θ ∣ x ) \pi(\theta|x) π(θx) θ \theta θ后验分布(posterior distribution)
和最大似然估计不同,贝叶斯方法使用 θ 的全分布,而非点估计;并且加入先验分布。

贝叶斯估计可以看作是,在假定 θ \theta θ服从先验分布 π ( θ ) \pi(\theta) π(θ)情况下,根据样本信息去校正先验分布,得到后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)
后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。

2.1 最大后验估计(Maximum A Posteriori estimation,MAP)

参数 θ 的完整贝叶斯后验分布进行预测,有时候是很难的。所以用单点估计来近似。
采用极大似然估计的思想,考虑后验分布极大化而估计 θ \theta θ, 就变成了最大后验估计。
在这里插入图片描述
m ( x ) m(x) m(x) θ \theta θ无关,简化计算。

对上面的式子稍作处理(取对数):在这里插入图片描述
取对数后,原来的似然函数变为对数似然函数,又加上 l o g π ( θ ) log\pi(\theta) logπ(θ)。可以认为 l o g π ( θ ) log\pi(\theta) logπ(θ),为正则化项。所以,MAP可以认为是带有正则化项的最大似然学习。

当然,这并不是总是正确的,例如,有些正则化项可能不是一个概率分布的对数,还有些正则化项依赖于数据,当然也不会是一个先验概率分布。不过,MAP提供了一个直观的方法来设计复杂但可解释的正则化项,例如,更复杂的惩罚项可以通过混合高斯分布作为先验得到,而不是一个单独的高斯分布。

2.2 共轭先验

贝叶斯估计中,如果选取先验分布 π ( θ ) \pi(\theta) π(θ) 和后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)属于同一个分布族(即共轭分布),则称 π ( θ ) \pi(\theta) π(θ)为似然函数 f ( x ∣ θ ) f(x|\theta) f(xθ)共轭先验.

共轭先验的选取有如下好处:
a).符合直观,先验分布和后验分布应该是相同形式的;
b).可以给出后验分布的解析形式;
c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。

很显然,共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。

参考

[1] https://zhuanlan.zhihu.com/p/61593112 (主要参考来源)
[2] 花书 5.6
[3] 概率学派和贝叶斯学派的区别
[4] 深度学习中的两种不确定性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值