1 KL散度
KL散度(Kullback–Leibler divergence) 定义如下:
D
K
L
=
∑
i
=
1
n
P
(
x
i
)
×
log
(
P
(
x
i
)
Q
(
x
i
)
)
D_{KL}=\sum_{i=1}^nP\left(x_i\right)\times\log\left(\frac{P(x_i)}{Q(x_i)}\right)
DKL=i=1∑nP(xi)×log(Q(xi)P(xi))
目标:证明上式非负。
2 凸函数与凹函数
连续函数
f
(
x
)
f(x)
f(x)的定义域为
I
I
I,如果对
I
I
I内任意两个实数
x
1
,
x
2
x_1, x_2
x1,x2及任意实数
λ
∈
(
0
,
1
)
\lambda \in (0,1)
λ∈(0,1),都有
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
(
1
)
f\left(\lambda x_1+(1-\lambda)x_2\right)\leq\lambda f\left(x_1\right)+(1-\lambda)f\left(x_2\right)\quad(1)
f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2)(1)
则称
f
(
x
)
f(x)
f(x)是
I
I
I上的凸函数(下凸)。
若有
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≥
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
(
2
)
f\left(\lambda x_1+(1-\lambda)x_2\right)\geq\lambda f\left(x_1\right)+(1-\lambda)f\left(x_2\right) \quad(2)
f(λx1+(1−λ)x2)≥λf(x1)+(1−λ)f(x2)(2)
则称
f
(
x
)
f(x)
f(x)为
I
I
I上的凹函数。
举例:
l
o
g
(
x
)
log(x)
log(x)是凹函数,反之
−
l
o
g
(
x
)
-log(x)
−log(x)是凸函数。
3 加权Jensen不等式
若
f
(
x
)
f(x)
f(x)是区间
[
a
,
b
]
[a,b]
[a,b]上的凸函数,则对任意的实数
x
1
,
x
2
,
⋯
,
x
n
∈
[
a
,
b
]
x_1, x_2, \cdots, x_n \in [a, b]
x1,x2,⋯,xn∈[a,b],对所有的非实数
a
1
,
a
2
,
⋯
a
n
≥
0
a_1,a_2,\cdots a_n\geq0
a1,a2,⋯an≥0,且
a
1
+
a
2
+
⋯
a
n
=
1
a_1+a_2+\cdots a_n=1
a1+a2+⋯an=1, 则下列不等式成立。
f
(
a
1
x
1
+
a
2
x
2
+
⋯
+
a
n
x
n
)
≤
a
1
f
(
x
1
)
+
a
2
f
(
x
2
)
+
⋯
+
a
n
f
(
x
n
)
f\left(a_1x_1+a_2x_2+\cdots+a_nx_n\right)\leq a_1f\left(x_1\right)+a_2f\left(x_2\right)+\cdots+a_nf\left(x_n\right)
f(a1x1+a2x2+⋯+anxn)≤a1f(x1)+a2f(x2)+⋯+anf(xn)
4 证明KL散度非负性
KL散度(Kullback–Leibler divergence) 定义如下:
D
K
L
=
∑
i
=
1
n
P
(
x
i
)
×
log
(
P
(
x
i
)
Q
(
x
i
)
)
D_{KL}=\sum_{i=1}^nP(x_i)\times\log\left(\frac{P(x_i)}{Q(x_i)}\right)
DKL=i=1∑nP(xi)×log(Q(xi)P(xi))
其中:
∑
i
=
1
n
P
(
x
i
)
=
1
\sum_{i=1}^nP(x_i)=1
i=1∑nP(xi)=1
由于log(x)是凹函数,所以-log(x)是凸函数,因此将 KL散度定义式先变形再应用加权Jensen不等式,得:
D
K
L
=
∑
i
=
1
n
P
(
x
i
)
×
log
(
P
(
x
i
)
Q
(
x
i
)
)
=
∑
i
=
1
n
P
(
x
i
)
×
(
−
log
(
Q
(
x
i
)
P
(
x
i
)
)
)
≥
−
log
(
∑
i
=
1
n
P
(
x
i
)
×
Q
(
x
i
)
P
(
x
i
)
)
=
−
log
(
∑
i
=
1
n
Q
(
x
i
)
)
\begin{aligned} D_{KL}& =\sum_{i=1}^nP\left(x_i\right)\times\log\left(\frac{P(x_i)}{Q(x_i)}\right) \\ &=\sum_{i=1}^nP\left(x_i\right)\times\left(-\log\left(\frac{Q(x_i)}{P(x_i)}\right)\right) \\ &\geq-\log\left(\sum_{i=1}^nP\left(x_i\right)\times\frac{Q(x_i)}{P(x_i)}\right) \\ &=-\log\left(\sum_{i=1}^nQ\left(x_i\right)\right) \end{aligned}
DKL=i=1∑nP(xi)×log(Q(xi)P(xi))=i=1∑nP(xi)×(−log(P(xi)Q(xi)))≥−log(i=1∑nP(xi)×P(xi)Q(xi))=−log(i=1∑nQ(xi))
Tips:Jensen不等式中的
x
i
x_i
xi在这里相当于
P
(
x
i
)
Q
(
x
i
)
\frac{P(x_i)}{Q(x_i)}
Q(xi)P(xi);
f
f
f相当于
−
l
o
g
(
)
-log()
−log();
a
i
a_i
ai相当于
P
(
x
i
)
P(x_i)
P(xi)。
由于
Q
(
x
i
)
Q(x_i)
Q(xi)是一个概率分布,因此和
P
(
x
i
)
P(x_i)
P(xi)一样满足下面的式子
∑
i
=
1
n
Q
(
x
i
)
=
1
\sum_{i=1}^nQ\left(x_i\right)=1
∑i=1nQ(xi)=1因此可以得到
D
K
L
≥
−
log
(
1
)
=
0
D_{KL}\ge-\log(1)=0
DKL≥−log(1)=0
到此KL散度非负性得证。
参考链接:
https://www.cnblogs.com/BlairGrowing/p/15859968.html