第一章 熵
物理学概念:一个系统的混乱程度,信息熵就是熵的另一种名称。
n
H(x)=− ∑ P(xi)log(P(xi)))(X=x1,x2,x3...,xn)
i=1
第二章 KL散度(相对熵)
n
DKL(p∣∣q)=∑p(xi)log(q(xi)/p(xi))
i=1
n:表示随机变量可能的取值数
x:表示随机变量
P(x):表示随机变量x的概率函数
n n
特性:1.非对称性: ∑p(xi)log(q(xi)/p(xi)) 不等于 ∑p(xi)log(p(xi)/q(xi))
i=1 i=1
n
2.非负性: ∑p(xi)log(q(xi)/p(xi))>=0仅在p=q时等于0
i=1
第三章 交叉熵
n
DKL(p∣∣q)=∑p(xi)log(q(xi)/p(xi))
i=1
n n
=∑p(xi)log(p(xi))−∑p(xi)log(q(xi))
i=1 i=1
n
=−H(p(x))+[−∑p(xi)log(q(xi))]
i=1
KL散度 = 交叉熵-信息熵