维基百科中是这样描述交叉熵的。
大意是,相同数据集下,对非真实概率分布(拟合概率分布)q而不是对真实概率分布p进行编码优化时,两个概率分布的交叉熵表示辨别集合中的个体时所需的平均编码长度。公式表示交叉熵的定义,里边包含有熵和KL散度(即相对熵)的概念。关于需要说明的是:1. 该公式表示从q到p的KL散度(此处wiki中的解释有误,移步这查看);2.p相对于q的相对熵;3.由相对关系可知,p和q的位置不对等,不能互换。
为方便交叉熵公式的具体理解,此处先对信息熵进行简单介绍。
在信息论中,熵(entropy)是一组随机数据产生的平均信息量。信息表示来自分布或数据流中的事件、样本或特征;来自信息源的另一个特征是样本的概率分