MLE(最大似然), LMS(均方误差),KL(散度), H(交叉熵).之间的等效性证明

最新推荐文章于 2023-10-19 12:12:37 发布

luixiao1220

最新推荐文章于 2023-10-19 12:12:37 发布

阅读量1.6k

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/luixiao1220/article/details/107530514

版权

算法专栏收录该内容

33 篇文章 2 订阅

订阅专栏

UTF8gbsn

我们在机器学习中常用的损失函数, 比如MLE(极大似然估计), KL(散度),
H(交叉熵), 均方误差等之间是什么关系? 本文就简单的讲解一下它们之间的关系.

均方误差 vs MLE

如果你的数据分布是来自指数型数据分布, 那么他们是等价的.
具体证明这里就不详细去证明了. 详情参看文章.

Charnes, A., Frome, E. L., Yu, P. L. (1976). 
The equivalence of generalized least squares and
 maximum likelihood estimates in the exponential family. 
Journal of the American Statistical Association, 71(353), 169–171. 
https://doi.org/10.1080/01621459.1976.10481508

为什么不讲, 因为我也没看这篇文章.

KL vs 交叉熵

$\left. \begin{aligned} KL(\theta^t,\theta)&=\int P(x|\theta^t)log \frac{P(x|\theta^t)}{P(x|\theta)}\\ H(\theta^t, \theta)&=-\int P(x|\theta^t)log P(x|\theta)\\ H(\theta^t)&=- \int P(x|\theta^t)log P(x|\theta^t) \end{aligned} \right.$

$H(\theta^t,\theta)=KL(\theta^t,\theta)+H(\theta^t)$

其中 $\theta$ , 是真实概率模型的参数.
而 $\theta^t$ 是我们估计的概率模型的参数.
由此可见KL散度和交叉熵实际上是一回事.

$\arg\min_{\theta} H(\theta^t,\theta) \equiv \arg\min_\theta KL(\theta^t,\theta)$

KL vs MLE

那么, 我们再来看看极大似然估计和KL散度之间的关系.

$\left. \begin{aligned} L(\theta)&=\arg\max_\theta\sum_i^N logP(x_i|\theta)\\ &=\arg\max_\theta \sum_i^NlogP(x_i|\theta)-\sum_i^N logP(x_i|\theta^t)\\ &=\arg\max_\theta \sum_{i}^{N}log \frac{P(x_i|\theta)}{P(x_i|\theta^t)}\\ &=\arg\min_\theta \sum_{i}^{N}log \frac{P(x_i|\theta^t)}{P(x_i|\theta)}\\ &=\arg\min_\theta\frac{1}{N}\arg\min_\theta \sum_{i}^{N}log \frac{P(x_i|\theta^t)}{P(x_i|\theta)}\\ &=\arg\min_\theta E(log \frac{P(x|\theta^t)}{P(x|\theta)}) \end{aligned} \right.$

如果当 $\rightarrow +\infty$ ,
那么可得上式最后一项等于 $\frac{P(x|\theta^t)}{P(x|\theta)}$ 的期望.
$\left. \begin{aligned} \arg\min_\theta E(log \frac{P(x|\theta^t)}{P(x|\theta)}) &= \arg\min_\theta\int P(x|\theta^t) log \frac{P(x_i|\theta^t)}{P(x_i|\theta)}\\ &= \arg\min_\theta KL(\theta^t,\theta) \end{aligned} \right.$

可见MLE和KL散度也是等价的.

总结

由此可见, 在一般意义下MLE, KL, H交叉熵, 均方误差都是等价.
加粗样式

luixiao1220

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MLE(最大似然), LMS(均方误差),KL(散度), H(交叉熵).之间的等效性证明

UTF8gbsn我们在机器学习中常用的损失函数, 比如MLE(极大似然估计), KL(散度),H(交叉熵), 均方误差等之间是什么关系? 本文就简单的讲解一下它们之间的关系.均方误差 vs MLE如果你的数据分布是来自指数型数据分布, 那么他们是等价的.具体证明这里就不详细去证明了. 详情参看文章.Charnes, A., Frome, E. L., Yu, P. L. (1976). The equivalence of generalized least squares and maxi
复制链接

扫一扫