交叉熵(Cross-Entropy):
在分类任务中,尤其是针对离散随机变量,给定真实分布 𝑃(𝑥) 和预测分布 𝑄(𝑥),交叉熵通常用于衡量预测分布 𝑄 描述真实分布 𝑃 的不准确性。交叉熵 𝐻(𝑃,𝑄) 的公式定义为:
如果 𝑃 是实际观测的数据分布(即真实标签),而 𝑄 是模型预测的概率分布,则交叉熵是一个损失函数,我们通常试图最小化这个值。
KL散度(Kullback-Leibler Divergence):
KL散度是用来量化分布 𝑃 相对于分布 𝑄 的非对称性差异的一个度量。它表示的是用分布 𝑄 来近似描述分布 𝑃 所需要额外付出的信息量。KL散度 的公式定义为:
展开可得:
联系:
交叉熵可以分解为KL散度加上一个只依赖于真实分布 𝑃 的熵项:
这意味着交叉熵实际上是KL散度和熵的组合,其中熵 𝐻(𝑃) 是常数(对于固定的真实分布 𝑃 而言),因此当我们最小化交叉熵时,实际上也在间接最小化KL散度。KL散度具有非对称性,即。
应用:
交叉熵主要用于训练模型作为损失函数,尤其适用于多分类任务,而KL散度更多地应用于模型比较、信息压缩、生成模型评估等方面,用于衡量两个概率分布的差异程度。