相对熵(KL散度):用于描述两个独立分布之间的差异。
对下式变形可以得到:
DKL(P || q)的==ΣI= 1NP(XI)的日志(P(XI)) - ΣI= 1NP(XI)的日志(Q(XI)) - H(P(X))+ [ - Σ I = 1NP(XI)的日志(q(XI))] DKL(p || q)=ΣI= 1NP(XI)的日志(p(XI)) - ΣI= 1NP(XI)的日志(q(XI) )= - H(p(X))+ [ - ΣI= 1NP(XI)的日志(q(XI))]
等式的前一部分恰巧就是p的熵,等式的后一部分,就是交叉熵:
H(P,Q)= - ΣI= 1NP(XI)的日志(Q(XI))H(P,Q)= - ΣI= 1NP(XI)的日志(Q(XI))
在机器学习中,我们需要评估标签和预测之间的差距,使用KL散度刚刚好,即DKL(Y || Y 1)DKL(Y || Y 1),由于KL散度中的前一部分 - H(y)的-H(y)的不变,故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用交叉熵做损耗,评估模型。
交叉熵用于衡量在给定真实发布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。