最大似然估计、KL散度和交叉熵

ffiirree

已于 2024-05-12 16:21:23 修改

阅读量1.8k

点赞数 2

分类专栏： DL 文章标签：极大似然估计交叉熵 KL散度

于 2019-09-18 20:10:24 首次发布

本文链接：https://blog.csdn.net/ice__snow/article/details/100985492

版权

DL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

深度学习建立在概率论的基础上，本质是估计数据集(具有随机误差)的分布，即定义模型后进行参数估计。

极大似然估计

极大似然估计是点估计的一种，我们定义一个似然函数来作为对真实分布的估计，取似然程度最大的一组参数作为估计值。

给定分布 $\boldsymbol{\theta})$ ，从中取一组样本 $X_1, X_2, X_3, ..., X_n$ ，则样本的 $p df$ 为
$L(\boldsymbol{\theta};X_1, X_2, X_3, ..., X_n) = \prod_{i}^{n} p(x_i;\boldsymbol{\theta})$
其中，参数 $\boldsymbol{\theta}$ 未知， $L$ 即为似然函数。

该问题也就转化为，在观测到一组样本 $X_1, X_2, X_3, ..., X_n$ 时， $\boldsymbol{\theta}$ 取什么值会使样本出现的可能性最大，也就是求 $L$ 最大时的参数 $\boldsymbol{\theta}$ 值。
$\arg\max_{\theta}\prod_{i}^{n} p(x_i;\boldsymbol{\theta})$
将上述求积转为求和的对数，以便于计算
$\arg\max_{\theta}\sum_{i}^{n}\log{p(x_i;\boldsymbol{\theta})} = \arg\min_{\theta} - \sum_{i}^{n}\log{p(x_i;\boldsymbol{\theta})}$

KL散度 & 交叉熵

从另一个角度来讲，如何衡量 $p_{\theta}$ 和 $p_{\hat\theta}$ 的差异呢？则可以使用f-divergence中的KL散度来进行衡量。

KL散度定义为
$D_{KL}(p_{\theta}||p_{\hat\theta}) = \sum_i^n p_{\theta}(x_i) \log \frac{p_{\theta}(x_i)}{p_{\hat\theta}(x_i)} = \sum_i^n p_{\theta}(x_i) \log {p_{\theta}(x_i)} - \sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}(x_i)}$
其中，
$\sum_i^n p_{\theta}(x_i) \log {p_{\theta}}(x_i)$ 为常量。

因此，问题就转化为
$\arg \min - \sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}}(x_i) = \arg \min_{\boldsymbol\theta} -E_x\log{p_{\hat\theta}}(\boldsymbol{x})$
该式子也是交叉熵。

结论

根据大数定理
$\sum_{i}^{n}\log{p(x_i;\boldsymbol{\theta})} = E_x\log{p_{\hat\theta}}(\boldsymbol{x})$

也就是在本问题中，求极大似然估计、最小化KL散度和最小化交叉熵等价。

注

大数定理

若 $X_1, X_2, X_3...$ 为独立同分布(iid)的随机变量，且 $E(X)=\mu, Var X = \sigma^2 < \infty$ ，定义 $\bar{X_n} = \sum_i^n X_i$ ，则有
$\lim_{n\to\infty}P(|\bar{X_n}-\mu| > \epsilon) = 0$

f-divergence(f-散度)

在概率论中，f散度是用来测量两个分布P和Q之间差异的函数，定义为
$D_f(P||Q) = \int f(\frac{dP}{dQ})dQ$
若P和Q可导
$D_f(P||Q) = \int f(\frac{(p(x)}{q(x)}) q(x)dx$
当 $f (t)$ 取不同的函数时，即为不同的散度，KL散度取 $t\log(t)$
$D_{KL}(P||Q) = \int p(x)\frac{(p(x)}{q(x)}dx$

熵、KL散度和交叉熵

熵: $H(X)=-\sum_i^n p(x_i)\log p(x_i)$ ，表示不确定程度，越不确定值越大
KL散度(相对熵): $D_{KL}(p_{\theta}||p_{\hat\theta}) = \sum_i^n p_{\theta}(x_i) \log {p_{\theta}(x_i)} - \sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}(x_i)}$
交叉熵: $\sum_i^np_{\theta}(x_i) \log {p_{\hat\theta}(x_i)}$
从定义里可以看出，当熵为常量时，KL散度和交叉熵等价。

ffiirree

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
最大似然估计、KL散度和交叉熵

深度学习建立在概率论的基础上，本质是估计数据集(具有随机误差)的分布。极大似然估计极大似然估计是点估计的一种，我们定义一个似然函数来作为对真实分布的估计，取似然程度最大的一组参数作为估计值。根据大数定理，当数据量足够大时，其差为0。给定分布P(x;θ)P(x; \boldsymbol{\theta})P(x;θ)，从中取一组样本X1,X2,X3,...,XnX_1, X_2, X_3, .....
复制链接

扫一扫