最大化似然估计，交叉熵

最新推荐文章于 2023-12-06 16:19:06 发布

LLeventt

最新推荐文章于 2023-12-06 16:19:06 发布

阅读量439

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42668508/article/details/111026159

版权

之前看过为什么使用交叉熵作为损失函数的一些文章，认为花书上讲的更接近本质，从最大似然估计出发推导交叉熵，记录一下，有描述不对的地方敬请指教。

什么是最大似然估计？通俗而言，利用已知的样本结果，反推最有可能这样结果的模型参数。

考虑一组含有m个样本的数据集 $\mathbb{X}=\left\{\boldsymbol{x}^{(1)}, \cdots, \boldsymbol{x}^{(m)}\right\}$ ，独立地由未知的真实数据生成分布 $p_{\text {data }}(x)$ 生成，就是已知的样本。

令 $p_{\text {model }}(\mathbf{x} ; \boldsymbol{\theta})$ 是一族由 $\boldsymbol{\theta}$ 确定在相同空间上的概率分布。换言之， $\boldsymbol{\theta}$ 是模型参数， $p_{\text {model }}(\mathbf{x} ; \boldsymbol{\theta})$ 将任意输入映射到到实数来估计真实概率 $p_{\text {data }}(x)$ 。

对 $\boldsymbol{\theta}$ 的最大似然估计被定义为：

$\begin{aligned} \theta_{\mathrm{ML}} &=\underset{\theta}{\arg \max } p_{\text {model }}(\mathrm{X} ; \theta) \\ &=\underset{\theta}{\arg \max } \prod_{i=1}^{m} p_{\text {model }}\left(x^{(i)} ; \theta\right) \end{aligned}$

已知样本，求解 $\boldsymbol{\theta}$ 值，使的模型估计概率最大。多项乘积不利于计算，转换为求和形式：

$\boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \sum_{i=1}^{m} \log p_{\text {model }}\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}\right)$

重新缩放代价函数时argmax不会改变。比如，当样本等价分布时，我们除以m得到训练经验分布 $\hat{p}_{\text {data }}$ 相关的期望作为准则，即交叉熵：

$\boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \mathbb{E}_{\mathbf{x} \sim \hat{p}_{\text {data }}} \log p_{\text {model }}(\boldsymbol{x} ; \boldsymbol{\theta}) {\color{Red} }$

其中，函数 f(x) 关于某分布 P(x) 的期望是指：当就是X服从 P(x) 分布，作用于x时， f(x) 的均值。

$\mathbb{E}_{x \sim P}[f(x)]=\sum_{x} P(x) f(x)$

另一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布 $\hat{p}_{\text {data }}$ 和模型分布之间的差异。两者的差异程度可以通过KL散度度量。

KL散度被定义为：

$D_{\mathrm{KL}}\left(\hat{p}_{\text {data }} \| p_{\text {model }}\right)=\mathbb{E}_{\mathrm{X} \sim \hat{p}_{\text {data }}}\left[\log \hat{p}_{\text {data }}(x)-\log p_{\text {model }}(x)\right]$