【ML Method】熵、联合熵、条件熵、互信息、相对熵、交叉熵

最新推荐文章于 2024-04-03 05:59:24 发布

roguesir

最新推荐文章于 2024-04-03 05:59:24 发布

阅读量1.8k

点赞数 3

分类专栏： Machine Learning Deep Learning 文章标签：机器学习熵交叉熵条件熵

本文链接：https://blog.csdn.net/roguesir/article/details/80947490

版权

Deep Learning 同时被 2 个专栏收录

65 篇文章 7 订阅

订阅专栏

Machine Learning

54 篇文章 6 订阅

订阅专栏

更新时间：2018-07-18

前言

之前有写过一篇文章介绍信息增益、Gini、信息增益率的，上面介绍过熵及其相关概念，地址为：https://blog.csdn.net/roguesir/article/details/76619919。这篇文章从另外的角度详细介绍熵、联合熵、条件熵、互信息、相对熵、交叉熵、信息增益等信息，为后面介绍最大熵模型做铺垫。下面进行详细介绍：
这里写图片描述

熵的概念理解

熵（Entropy）最初在热力学中提出，后由香农引入信息论中，成为一个重要物理量，在机器学习中，经典算法如决策树、随机森林等算法都涉及熵的概念。

信息量

信息量作为信息的度量，可以用来衡量熵的定义，设 $p(x_i)$ 表示 $x_i$ 发生的概率，则信息量可以表示为：

h (x i) = - l o g a p (x i) = l o g a 1 p ( x i ) (1)

$h(x_i)=-log_{a}p(x_i)=log_{a}\frac{1}{p(x_i)} \tag{1}$
其中，a值常取2，表示比特，即非0即1，由此可知，信息量与概率成反比，可以理解为：事件发生概率越高，含有的信息量就越低，事件就越寻常易见。

熵的定义

熵在热力学熵用来描述物质的混乱程度，用来衡量不确定性，也就是说，物质越混乱，不确定性越大，熵值越大。
同步到信息论中，事件发生的不确定行越大，则熵越大。例如：掷骰子，六个面机会均等，因此投一次得到的点数不确定性最大（因为每个点数的概率都是六分之一），因此此时熵最大；再如：敲代码时候打错一个词，编译时出问题的概率为1，是一个确定事件，因此此时熵最小。
熵是信息量的期望，公式如下：

H (X) = - \sum i = 1 n p (x i) l o g a p (x i) = \sum i = 1 n p (x i) l o g a 1 p ( x i ) (2)

$H(X)=-\sum_{i=1}^{n}p(x_i)log_{a}p(x_i)=\sum_{i=1}^{n}p(x_i)log_{a}\frac{1}{p(x_i)} \tag{2}$
其中

loga1p(xi) l o g a 1 p ( x i ) $log_{a}\frac{1}{p(x_i)}$ 表示信息量，

∑ni=1p(xi)loga1p(xi) ∑ i = 1 n p ( x i ) l o g a 1 p ( x i ) $\sum_{i=1}^{n}p(x_i)log_{a}\frac{1}{p(x_i)}$ 则表示信息量的期望，反应不确定性。
定义熵时，约定确定事件的熵为0，如下：

lim p - > 0 + p l o g a p = 0 (3)

$\lim_{p->0^+}plog_ap=0 \tag{3}$
概率和熵具有如下的性质：

0 \leq p \leq 1 a n d \sum p = 1 (4)

$0 \leq p \leq1 \ \ and \ \ \sum p=1\tag{4}$

\exists H (X) H (X) > 1 (5)

$\exists H(X) \ \ \ H(X)>1\tag{5}$

联合熵

由上面的Venn图可知，联合熵可以表示为两个事件的熵的并集：

H (X, Y) = = - \sum i = 1 n \sum j = 1 n p (x i, y j) l o g 2 p (x i, y j) \sum i = 1 n \sum j = 1 n p (x i, y j) l o g 2 1 p ( x i , y j ) (6) (7)

$\begin{eqnarray} H(X,Y) &=& -\sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2p(x_i,y_j) \tag{6}\\ & =& \sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2\frac{1}{p(x_i,y_j)}\tag{7} \end{eqnarray}$ 可以得到如下性质：

m a x [H (X), H (Y)] \leq H (X, Y) \leq H (X) + H (Y) (8)

$max[H(X),H(Y)]\leq H(X,Y)\leq H(X)+H(Y)\tag{8}$

条件熵

通过上述Venn图可知，条件熵实际上是联合熵与熵的差集，也可表示为熵与互信息的差集，具体如下：

H (X | Y) = = H (X, Y) - H (Y) H (X) - I (X, Y) (9) (10)

$\begin{eqnarray} H(X|Y) & = & H(X,Y)-H(Y) \tag{9}\\ & = & H(X)-I(X,Y) \tag{10} \end{eqnarray}$
具体的推到过程如下：

H (Y | X) = = = \sum i = 1 n p (x i) H (Y | X = x i) - \sum i = 1 n \sum j = 1 n p (x i) p (y i | x j) l o g 2 p (y i | x j) \sum i = 1 n \sum j = 1 n p (x i, y j) l o g 2 p ( x i ) p ( x i , y j ) (11) (12) (13)

$\begin{eqnarray} H(Y|X) &=& \sum_{i=1}^{n}p(x_i)H(Y|X=x_i) \tag{11}\\ & = & -\sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i)p(y_i|x_j)log_2p(y_i|x_j)\tag{12}\\ & = & \sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2\frac{p(x_i)}{p(x_i,y_j)}\tag{13} \end{eqnarray}$

互信息

上面提到了互信息，互信息是用来表示变量间相互以来的程度，常用在特征选择和特征关联性等方面，公式如下：

I (X, Y) = - \sum i = 1 n \sum j = 1 n p (x i, y j) l o g 2 p ( x i , y j ) p ( x i ) p ( y j ) (14)

$I(X,Y)=-\sum_{i=1}^{n} \sum_{j=1}^{n}p(x_i,y_j)log_2\frac{p(x_i,y_j)}{p(x_i)p(y_j)}\tag{14}$
互信息与相关性

ρ ρ $\rho$ 相关，

ρ ρ $\rho$ 用来描述线性相关性，互信息用来描述非线性相关性，其中：

ρ = c o v ( x , y ) v a r ( x ) ‾ ‾ ‾ ‾ ‾ ‾ \sqrt v a r ( y ) ‾ ‾ ‾ ‾ ‾ ‾ \sqrt (15)

$\rho=\frac{cov(x,y)}{\sqrt{var(x)}\sqrt{var(y)}}\tag{15}$

相对熵（KL散度）

相对熵用来描述两个分布之间的差异，在GAN上获得了广泛应用。

K L (p | | q) = \sum i = 1 n p (x i) l o g 2 p ( x i ) q ( x i ) (16)

$KL(p||q)=\sum_{i=1}^{n}p(x_i)log_2\frac{p(x_i)}{q(x_i)}\tag{16}$
其中，p，q表示两个分布，易知：

K L (p | | q) \neq K L (q | | p) (17)

$KL(p||q)\neq KL(q||p)\tag{17}$ KL散度越大，两个分布间的差异越明显，并且：

K L (p | | q) \geq 0 (18)

$KL(p||q)\geq0\tag{18}$ 对于式(18)，可以通过如下证明：

交叉熵

交叉熵常用在深度学习中目标函数优化。

C H (p, q) = = = = - \sum i = 1 n p (x i) l o g 2 q (x i) - \sum i = 1 n p i l o g 2 p i + \sum i = 1 n p i l o g 2 p i - \sum i = 1 n p i l o g 2 q i H (p) + \sum i = 1 n p i l o g 2 p i q i H (p) + K L (p | | q) (19) (20) (21) (22)

$\begin{eqnarray} CH(p,q) & = & -\sum_{i=1}^{n}p(x_i)log_2q(x_i)\tag{19}\\ & = & -\sum_{i=1}^{n}p_ilog_2p_i+\sum_{i=1}^{n}p_ilog_2p_i-\sum_{i=1}^{n}p_ilog_2q_i\tag{20}\\ & = & H(p)+\sum_{i=1}^{n}p_ilog_2\frac{p_i}{q_i}\tag{21}\\ & = & H(p)+KL(p||q)\tag{22} \end{eqnarray}$