极大似然估计最大后验概率估计

最新推荐文章于 2022-09-05 17:17:34 发布

潮生明月

最新推荐文章于 2022-09-05 17:17:34 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：经验风险最小化结构风险最小化极大似然估计最大后验概率

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

经验风险最小化：
$\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))$
结构风险最小化：
$\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)$
李航博士《统计学习方法》中第一章第九页中有两个论断
1 当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。
2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计

证明论断1：
极大似然估计：对于观测的随机变量D，其总体分布为
$P(D;\theta)$
(这里 $\theta$ 是一个未知的参数，是一个常量而不是变量)
S为抽样得到的样本， $S=(s_1,s_2,...,s_N)$ ，样本是独立同分布得到的，因此样本的分布为
$L(\theta) = \prod_{i=1}^{N} P(s_i;\theta)$
当 $S=(s_1,s_2,...,s_N)$ 确定，则上式可以看做是 $\theta$ 的函数。
这个函数反映了在观察结果已知的情况下， $\theta$ 的“似然程度”，因此上式被叫做似然函数。用似然程度最大的那个 $\theta_{*}$ 去做 $\theta$ 的估计，这种估计方法叫做”极大似然估计”。取对数，极大平均似然函数为：
$\max log L(\theta)=\max \frac{1}{N}\sum_{i=1}^{N}log P(s_i;\theta)$
上式等价于
$\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(s_i;\theta)$
在统计学习中，S就是样本， $s_{i}=(x_i,y_i).x_i\mbox{为特征,}y_i{为标签}$
当模型是条件概率分布时，则 $P(s_i;\theta)=P(y_i|x_i;\theta)$
$\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta) -----（1）$
当损失函数是对数损失函数( $L(Y,P(Y|X)) = -log P(Y|X)$ )，则最小化经验风险的公式为
$\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i)) =\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,p(y_i|x_i;\theta)) =\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} -log p(y_i|x_i;\theta) —–（2）$
对比(1)(2)两个公式，论断1得证。

证明论断2:
极大似然估计将 $\theta$ 看做是一个确定但未知的常量，而贝叶斯学派则认为 $\theta$ 可以看做一个随机变量，从这个视角出发可得到条件概率 $P(\theta|S)$
因此利用贝叶斯公式得到
$P(\theta|S)=\frac{P(S|\theta)P(\theta)}{P(S)}$
最大后验概率估计是要最大化 $P(\theta|S)$ 这个后验概率，因此
$\max P(\theta|S) = \max P(S|\theta)P(\theta)$
上式与极大似然估计相比，只多了个 $P(\theta)$ ，左边和极大似然估计一样，因此对左边取对数处理求平均似然最大
$\max \frac{1}{N}\sum_{i=1}^{N} log P(s_i|\theta)+log P(\theta)$
当模型是条件概率分布时，则 $P(s_i;\theta)=P(y_i|x_i;\theta)$ 因此，
$\max \frac{1}{N}\sum_{i=1}^{N} log P(y_i|x_i;\theta)+log P(\theta)$
取负号，转换为
$\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta)-log P(\theta) -----(3)$
当损失函数是对数损失函数( $L(Y,P(Y|X)) = -log P(Y|X)$ )，模型是条件概率分布时,
结构风险最小化公式
$\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f) =\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} -log P(y_i|x_i;\theta)+\lambda J(f) —–(4)$
比较公式(3)(4)，则当 $\lambda J(f) = -log P(\theta)$ 两者等价，论断2得证。