ML(9)-最大似然、最小KL散度、交叉熵损失函数三者的关系

小陈同学-陈百万

已于 2023-10-25 21:43:05 修改

阅读量1.4k

点赞数 3

分类专栏： MachineLearning

于 2020-11-15 12:13:29 首次发布

本文链接：https://blog.csdn.net/sinat_40624829/article/details/109689012

版权

深度学习机器学习

MachineLearning 专栏收录该内容

16 篇文章 4 订阅

订阅专栏

最大似然-最小KL散度-最小化交叉熵损失-三者的关系

问题缘起：给定一组数据 $x^1,x^2,...,x^m)$ ,希望找到这组数据服从的分布。此种情况下，分布规律用概率密度p(x)表征。

问题归处：如果能够建模/近似建模p(x)，就能够利用p(x)进行采样/数据生成。离散化x的空间 ${x_i\}_{i=1}^n$ , 计算 ${p(x_i)\}_{i=1}^n$ ,取概率最大的 $x_k$ 作为生成样本。

最大似然：常用来解决这类问题。具体做法：参数还一个概率分布 $q_\theta(x)$ ,是的观测样本 $x^1,x^2,...,x^m)$ 在 $q_\theta(x)$ 的似然函数最大。

似然函数：表示的是已知随机变量的取值时，未知参数的取值可能性：L(θ|x)=P(X=x|θ)。直观理解就是在参数 $\theta$ 情况下，出现 $x^1,x^2,...,x^m)$ 这组数据的可能性，数学表达式为(概率密度积分记为概率)：
$L(θ|x)=\prod_{i=1}^m p_\theta(x_i)\tag{1}$

我们需要调整参数 $\theta$ 来使这个出现这组数据的可能性最大，即最大似然。

为了简化似然函数中的连乘计算，常常会使用对数似然函数，使得连乘转变为连加（取对数不会改变似然的最优解–最优解是自变量的值，最优解值才是因变量的值）。

最大化对数似然问题可以统一为下式，即最优的参数是使对数似然的值最大的 $\theta$ ：
$\theta^* = \arg \max_{\theta} \log\prod_{i=1}^m p_\theta(x_i)\\ =\arg \max_{\theta} \sum_{i=1}^m\log p_{\theta}(x_i)\\ =\arg \max_{\theta} \sum_{i=1}^m\frac{1}{m}\log p_{\theta}(x_i)\\ \approx\arg \max_{\theta}\mathbb{E}_{x\sim p}[\log p_{\theta}]\tag{2}$

上式子第三行到第四行的转换为均值近似期望的离散化计算过程。 $p$ 为目标函数， $p_\theta$ 用于近似目标函数为了避免混淆，将 $p_\theta$ 用 $q_\theta$ 表示。上式子可改写成：
$\theta^* =\arg \max_{\theta}\mathbb{E}_{x\sim p}[\log q_{\theta}]\tag{3}$

最小KL散度：在上式子中加上一项与优化无关的常数项：
$\theta^* =\arg \max_{\theta}\{\mathbb{E}_{x\sim p}[\log q_{\theta}]-\mathbb{E}_{x\sim p}[\log p]\}\\ =\arg \max_{\theta}\{\int_xp(x)\log\frac{q_\theta(x)}{p(x)}dx\}\\ =\arg \max_{\theta} -KL(p,q)\\ =\arg \min_{\theta} KL(p,q)\tag{4}$

交叉熵损失：
式（2）添一个负号后可以转换为最小化交叉熵的问题：
$\arg \max_{\theta}\mathbb{E}_{x\sim p}[\log p_{\theta}]\\=\arg \min_{\theta}cross\ entropy(p,q_\theta)\tag{5}$

综上：
1.求解最大似然问题等价于最小化参数分布和目标分布的KL散度

2.常用于分类问题中的交叉熵损失函数本质是极大似然问题，也就是在最小化 目标分布与模型输出分布的之间的KL散度问题。在实际K分类问题中，目标分布用one-hot编码表示；神经网络模型最后全联接层输出的K个得分数值可以通过softmax 归一化成对应类别的概率分布，即模型输出分布。

参考资料：
似然函数参见百度百科：https://baike.baidu.com/item/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0/6011241?fr=aladdin

小陈同学-陈百万

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
ML(9)-最大似然、最小KL散度、交叉熵损失函数三者的关系

最大似然-最小KL散度-最小化交叉熵损失-三者的关系问题缘起：给定一组数据(x1,x2,...,xm)(x^1,x^2,...,x^m)(x1,x2,...,xm),希望找到这组数据服从的分布。此种情况下，分布规律用概率密度p(x)表征。问题归处：如果能够建模/近似建模p(x)，就能够利用p(x)进行采样/数据生成。离散化x的空间{xi}i=1n\{x_i\}_{i=1}^n{xi}i=1n, 计算{p(xi)}i=1n\{p(x_i)\}_{i=1}^n{p(xi)}i=1n,取概率最大的xk
复制链接

扫一扫

专栏目录