熵，信息熵，相对熵（KL散度），交叉熵

Wolf 2020

已于 2022-09-29 15:10:02 修改

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

于 2022-04-30 21:48:50 首次发布

本文链接：https://blog.csdn.net/qq_44878786/article/details/124513718

版权

2 篇文章 0 订阅

订阅专栏

熵

英文：entropy

熵是一个物理学概念，它表示一个系统的额不确定性程度，或者说是一个系统的混乱程度。

英文：Information entropy

一个叫香农的美国数学家，将熵引入信息论中，并将它命名为：“香农熵”或者“信息熵”。(注意log以什么为底是对结果的比较没有影响，但是不同系统如果要比较混乱程度必须用相同的低比较)

公式： $\begin{equation} H(X) = -\sum_{i=1}^{n}P(x_i)logP(x_i) \end{equation}$

n:随机变量可能的取值数目（i = 1,2···n）

x:随机变量

P（x）:随机变量x的概率函数

例子：

在这个例子中：

对于班花A n = 5, $P(x_1)=P(x_2)=P(x_3)=P(x_4)=P(x_5)=0.2$ 计算班花A的信息熵 H(A) = -(0.2lg(0.2)+0.2lg(0.2)+0.2lg(0.2）+0.2lg（0.2)) = 0.699
对于班花B n = 5, $P(x_1)=0.6$ ， $P(x_2)=P(x_3)=P(x_4)=P(x_5)=0.1$ 计算班花B的信息熵 H(B) = -(0.6lg(0.6)+0.1lg(0.1)+0.1lg(0.1)+0.1lg(0.1)) = 0.53308

根据结果可以知道H(A) > H(B）也就是说A的系统是更混乱的，也就是A的内心是更加纠结的。

英文：relative entropy（Kullback-Leibler divergence）

两个概率分布间差异的非对称性度量（用来衡量同一个随机变量的两个不同分布之间的距离）

公式： $\begin{equation} D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)}) \end{equation}$

特性1(非对称性)：

特性2（非负性）：

对KL散度的公式进行变形之后会发现KL散度就等于交叉熵减去信息熵

英文：cross entropy

公式： $H(P,Q)=-\sum_{i=1}^np(x_i)logq(x_i)$

交叉熵是信息论中的一个重要概念，用来衡量两个概率分布之间的差异性信息。

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。

例子：