证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略

_Yhisken

于 2023-07-02 16:36:01 发布

阅读量315

点赞数 1

文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/ZDEWBYE/article/details/131502345

版权

首先，让我们定义一些符号：

$p_{\text{data}}(x)$ ：真实数据的概率分布
$p_{\text{model}}(x; \theta)$ ：由参数 $\theta$ 确定的模型的概率分布
$\mathcal{D}$ ：从真实数据分布中抽取的数据集
我们的目标是找到一组参数 $\theta$ ，使得 $p_{\text{model}}(x; \theta)$ 尽可能地接近 $p_{\text{data}}(x)$ 。使用负对数似然函数和 KL 散度作为度量，我们可以分别定义这两个目标。

最小化负对数似然函数：
$\theta^* = \underset{\theta}{\operatorname{argmin}}; L(\theta) = \underset{\theta}{\operatorname{argmin}}; - \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta)$

最小化 KL 散度：
$\theta^* = \underset{\theta}{\operatorname{argmin}}; D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \underset{\theta}{\operatorname{argmin}}; \sum_{x} p_{\text{data}}(x) \log \frac{p_{\text{data}}(x)}{p_{\text{model}}(x; \theta)}$

现在，让我们证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。首先我们将 KL 散度的表达式进行分解：

$D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \sum_{x} p_{\text{data}}(x) \log p_{\text{data}}(x) - \sum_{x} p_{\text{data}}(x) \log p_{\text{model}}(x; \theta)$

我们注意到第一项是关于 $\theta$ 的常数项，因为它仅与真实数据分布有关。因此，在最小化 KL 散度时，我们只关心第二项：

$\underset{\theta}{\operatorname{argmin}}; D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \underset{\theta}{\operatorname{argmin}}; - \sum_{x} p_{\text{data}}(x) \log p_{\text{model}}(x; \theta)$

我们知道无法直接获取真实数据的概率分布 $p_{\text{data}}(x)$ ，但可以通过数据集 $\mathcal{D}$ 进行估计。假设数据集中有 $N$ 个独立同分布的样本，我们可以将上式改写为：

$\underset{\theta}{\operatorname{argmin}}; - \frac{1}{N} \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta)$

并且，在大样本极限下（ $\lim_{N \to \infty}$ ），这个表达式就变成了负对数似然函数：

$\underset{\theta}{\operatorname{argmin}}; - \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta)$

因此，我们证明了在大样本极限下，最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。

_Yhisken

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略

现在，让我们证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。因此，我们证明了在大样本极限下，最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。的常数项，因为它仅与真实数据分布有关。使用负对数似然函数和 KL 散度作为度量，我们可以分别定义这两个目标。我们知道无法直接获取真实数据的概率分布。：从真实数据分布中抽取的数据集。我们的目标是找到一组参数。我们注意到第一项是关于。确定的模型的概率分布。并且，在大样本极限下（：真实数据的概率分布。
复制链接

扫一扫