Kullback-Leibler (KL) 散度,也称为相对熵(Relative Entropy),是信息论和统计学中的一个概念,用于度量两个概率分布之间的差异或相似性。它由 Solomon Kullback 和 Richard A. Leibler 在20世纪的研究中首次引入。
KL 散度用于衡量一个概率分布 Q 相对于另一个概率分布 P 的不相似程度。通常,P 是作为“真实”分布或基准分布,而 Q 是待比较的分布。KL 散度的计算方式如下:
KL(P || Q) = Σ [ P(x) * log(P(x) / Q(x)) ]
其中,Σ 表示对所有可能的事件或变量 x 进行求和。P(x) 表示真实分布 P 中事件 x 发生的概率,而 Q(x) 表示待比较分布 Q 中事件 x 发生的概率。log 表示自然对数。
要理解 KL 散度的含义,可以将其解释为在用 Q 来近似 P 时产生的额外信息的期望值。如果 KL 散度为零,则表示 P 和 Q 完全相同;如果 KL 散度大于零,则表示 P 和 Q 之间存在差异,差异越大,KL 散度的值越大。
需要注意的是,KL 散度不是对称的,即 KL(P || Q) 和 KL(Q || P) 可能不相等。它度量的是由于从 P 到 Q 的近似而引入的信息损失,而不是两个分布之间的距离。
KL 散度在许多领域有广泛的应用,包括信息论、机器学习、统计学、贝叶斯推断等。在机器学习中,KL 散度通常用于度量两个概率分布之间的差异,例如,在概率模型中度量预测分布与真实分布之间的差异,或在聚类算法中度量不同簇之间的相似性。