Jenson不等式及其在EM估计与KL散度中的应用

最新推荐文章于 2024-06-16 10:45:52 发布

chengyucsdn

最新推荐文章于 2024-06-16 10:45:52 发布

阅读量815

点赞数

分类专栏：机器学习文章标签：知识点总结

本文链接：https://blog.csdn.net/chengyucsdn/article/details/90740437

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1. Jenson不等式

Jenson不等式定义：如果 $f (x)$ 是凸函数，则有 $\geq f(E[x])$ 成立。
凸函数的充要条件：a,b在 $f (x)$ 定义域上， $\lambda f(a)+(1-\lambda) f(b)\geq f(\lambda a+ (1-\lambda)b)$ 恒成立。
推论：若 $f (x)$ 为凸函数，则 $- f (x)$ 为凹函数。所以凹函数的充要条件为a,b在 $f (x)$ 定义域上， $\lambda f(a)+(1-\lambda) f(b)\leq f(\lambda a+ (1-\lambda)b)$ 恒成立。

2. Jenson不等式的证明

要证 $\geq f(E[x])$ ，即证 $\sum_{i=1}^{k}{p_if(x_i)}\geq f(\sum_{i=1}^{k}{p_ix_i})$ 。
利用数学归纳法证明，在 $k = 1, 2$ 时，上式成立，假设在 $k = n$ 时，上式也成立，那么在 $k = n + 1$ 时：
$\sum_{i=1}^{k+1}{p_if(x_i)}=p_{k+1}f(x_{k+1})+\sum_{i=1}^{k}{p_if(x_i)}$
$=p_{k+1}f(x_{k+1})+z_k\sum_{i=1}^{k}{\frac{p_i}{z_k}f(x_i)}, z_k=\sum_{i=1}^kp_i$
$\geq p_{k+1}f(x_{k+1})+z_kf(\sum_{i=1}^{k}{\frac{p_i}{z_k}x_i}), \sum_{i=1}^{k}{\frac{p_i}{z_k}}=1$
$\geq f(p_{k+1}x_{k+1}+z_k\sum_{i=1}^k{\frac{p_i}{z_k}x_i}),z_k+p_{k+1}=1$
$\geq f(\sum_{i=1}^{k+1}{p_ix_i})$
$f (x)$ 定义域为D，上述证明同样可证在 $g (x) \in D$ 时， $\sum_{i=1}^{k}{p_if(g(x_i))}\geq f(\sum_{i=1}^{k}{p_ig(x_i)})$ 。

3. EM估计及Jenson不等式在其中的作用

4. KL散度及Jenson不等式在其中的作用

KL散度：衡量 $p (x), q (x)$ 两个分布的相似性, $KL(p,q)=E_{p(x)}[log(\frac{p(x_i)}{q(x_i)})]=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$ 。
利用Jenson不等式证明KL散度恒大于0证明：
$KL(p,q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})=-\sum_{i=1}^np(x_i)log(\frac{q(x_i)}{p(x_i)})$ ， $f (x) = - l o g (x)$ 为凸函数， $g(x)=\frac{q(x)}{p(x)}$ 。

5. KL散度与交叉熵损失函数

5.1 信息熵

香农信息量：信号 $x$ 发生的概率为 $p (x)$ ，则 $x$ 带有的信息量为 $log(\frac{1}{p(x)})$ ，又称为编码x需要的长度。
信息量的期望，也称信息熵/平均编码长度： $E[log(\frac{1}{p(x)})]=\sum_{i=1}^np(x_i)log(\frac{1}{p(x_i)})$ 。

5.2 相对熵(KL散度)

相对熵，也叫KL散度，信息论中表示用分布 $q (x)$ 编码实际分布为 $p (x)$ 的信息 $x$ 比用分布 $p (x)$ 编码信息 $x$ 额外多出的平均编码长度，统计学上表示两个分布的差异大小，相对熵表示为：
$E_{p(x)}[log(\frac{p(x)}{q(x)})]=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})=\sum_{i=1}^np(x_i)log(\frac{1}{q(x_i)})-\sum_{i=1}^np(x_i)log(\frac{1}{p(x_i)})$

5.3 交叉熵

交叉熵，表示用分布为 $q (x)$ 的编码来编码实际分布为 $p (x)$ 的信息的信息熵/平均编码长度，表示为：
$E_{p(x)}[log(\frac{1}{q(x)})]=\sum_{i=1}^np(x_i)log(\frac{1}{q(x_i)})$ ，
根据5.2可知交叉熵=信息熵+相对熵，在信息x的分布确定的情况下，信息熵 $E_{p(x)}[log(\frac{1}{p(x)})]$ 为定值，交叉熵与相对熵等效。

5.4 图形分类任务及交叉熵损失函数

图像分类任务中，训练集中图像为 $x$ ，图像类别的分布为 $p (x)$ ，模型对于输入图像 $x$ 的类别预测分布为 $q (x)$ ，学习目标为两个分布尽量接近，即相对熵最小，由于训练集每个样本的类别是确定的，所以训练集样本的信息熵是定值，求相对熵最小也就是求交叉熵最小，因此以交叉熵为损失函数。
交叉熵损失函数表示为:
$loss=\sum_{k=1}^N\sum_{i=1}^np(x_{ki})log(\frac{1}{q(x_{ki})})$ ， $q(x_{ki})$ 表示模型预测第 $k$ 个样本属于第 $i$ 个类别的概率。
假设训练集中第k个样本属于第c类，则 $\sum_{i\neq c}p(x_{ki})=0,p(x_{kc}=1)$ ，所以上述损失函数可化简为：
$loss=-\sum_{k=1}^Nlog(q(x_{kc}))$ 。

chengyucsdn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Jenson不等式及其在EM估计与KL散度中的应用

1.Jenson不等式Jenson不等式定义：如果f(x)f(x)f(x)是凸函数，则有E[f(x)]≥f(E[x])E[f(x)] \geq f(E[x])E[f(x)]≥f(E[x])成立。凸函数的充要条件：a,b在f(x)f(x)f(x)定义域上，λf(a)+(1−λ)f(b)≥f(λa+(1−λ)b)\lambda f(a)+(1-\lambda) f(b)\geq f(\lambda...
复制链接

扫一扫

专栏目录