香农信息量I: 熵H§: 交叉熵 H(p,q)越小,p,q越相似。 相对熵(KL散度) 其中p(xi)和q(xi)是两个概率分布,KL使用来计算两个信息熵之间的差值的。在判断预测是否准确的时候可以用预测值作为q(xi),p(xi)作为真实值。 熵、交叉熵和相对熵关系