KL散度非负性证明

静心问道

于 2024-09-16 10:13:48 发布

阅读量537

点赞数 11

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39698985/article/details/142298888

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1 KL散度

KL散度(Kullback–Leibler divergence) 定义如下：
　　 $D_{KL}=\sum_{i=1}^nP\left(x_i\right)\times\log\left(\frac{P(x_i)}{Q(x_i)}\right)$
目标：证明上式非负。

2 凸函数与凹函数

连续函数 $f (x)$ 的定义域为 $I$ ，如果对 $I$ 内任意两个实数 $x_1, x_2$ 及任意实数 $\lambda \in (0,1)$ ，都有
$f\left(\lambda x_1+(1-\lambda)x_2\right)\leq\lambda f\left(x_1\right)+(1-\lambda)f\left(x_2\right)\quad(1)$
则称 $f (x)$ 是 $I$ 上的凸函数（下凸）。
若有
$f\left(\lambda x_1+(1-\lambda)x_2\right)\geq\lambda f\left(x_1\right)+(1-\lambda)f\left(x_2\right) \quad(2)$
则称 $f (x)$ 为 $I$ 上的凹函数。
举例：
$l o g (x)$ 是凹函数，反之 $- l o g (x)$ 是凸函数。

3 加权Jensen不等式

若 $f (x)$ 是区间 $[a, b]$ 上的凸函数，则对任意的实数 $x_1, x_2, \cdots, x_n \in [a, b]$ ，对所有的非实数 $a_1,a_2,\cdots a_n\geq0$ ，且 $a_1+a_2+\cdots a_n=1$ , 则下列不等式成立。
$f\left(a_1x_1+a_2x_2+\cdots+a_nx_n\right)\leq a_1f\left(x_1\right)+a_2f\left(x_2\right)+\cdots+a_nf\left(x_n\right)$

4 证明KL散度非负性

KL散度(Kullback–Leibler divergence) 定义如下：
$D_{KL}=\sum_{i=1}^nP(x_i)\times\log\left(\frac{P(x_i)}{Q(x_i)}\right)$

其中：
$\sum_{i=1}^nP(x_i)=1$
由于log(x)是凹函数，所以-log(x)是凸函数，因此将 KL散度定义式先变形再应用加权Jensen不等式，得：
$\begin{aligned} D_{KL}& =\sum_{i=1}^nP\left(x_i\right)\times\log\left(\frac{P(x_i)}{Q(x_i)}\right) \\ &=\sum_{i=1}^nP\left(x_i\right)\times\left(-\log\left(\frac{Q(x_i)}{P(x_i)}\right)\right) \\ &\geq-\log\left(\sum_{i=1}^nP\left(x_i\right)\times\frac{Q(x_i)}{P(x_i)}\right) \\ &=-\log\left(\sum_{i=1}^nQ\left(x_i\right)\right) \end{aligned}$
Tips：Jensen不等式中的 $x_i$ 在这里相当于 $\frac{P(x_i)}{Q(x_i)}$ ； $f$ 相当于 $- l o g ()$ ; $a_i$ 相当于 $P(x_i)$ 。
由于 $Q(x_i)$ 是一个概率分布，因此和 $P(x_i)$ 一样满足下面的式子 $\sum_{i=1}^nQ\left(x_i\right)=1$ 因此可以得到
$D_{KL}\ge-\log(1)=0$
到此KL散度非负性得证。