信息熵的相关概念和在机器学习中的应用

主要整理自维基百科,添加了一些在机器学习中的应用。

熵:

在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。

主要衡量不确定性的度量,越随机的信息熵越大,想法来源于不可能发生的事发生时会提供更多的信息。所以信息熵定义为概率分布的对数的相反数有这方面的体现。

随机变量X\in \{x_1,x_2,\dots,x_n\}的熵值定义为:$H(X) = E[I(X)] = E[-ln(P(X))]$.

 

注:此处E为期望函数,$P(X)$为概率质量函数(离散随机变量而言随机变量取某个值的概率,类似于连续性随机变量的概率密度函数PDF),$I(X)$X的信息量,又称为自信息,及$-ln(P(X))$表示X的信息量。体现了越不可能发生的事情发生时蕴含的信息更多。

联合熵:

联合熵是一集随机变量之间不确定性的衡量手段。

两个随机变量XY的联合熵定义为:$H(X,Y) = -\sum_{x}\sum_{y}P(X,Y)log_2[P(X,Y)]$.对于多个随机变量的联合熵也可以类似定义。

性质:

$$\begin{align*} H(X,Y) \geq max[H(X), H(Y)]\\ H(X_1,X_2, \dots,X_n) \geq max[H(X_1),\dots, H(X_n)]\\ H(X,Y) \leq H(X) + H(Y) \\ H(X_1,X_2, \dots, X_n) \leq H(X_1) + H(X_2) + \dots + H(X_n) \end{align*}$$

 

条件熵:

条件熵描述了在已知第二个随机变量X的条件下,随机变量Y的信息熵还有多少。基于X条件的Y的信息熵,用$H(Y\left|X)$表示。

$$ \begin{align*} H(Y|X) &= \sum\limits_{x\in X }p(x)H(Y|X=x)\\ &= \sum\limits_{x\in X, y\in Y}p(x,y)\log\frac{p(x)}{p(x,y))} \\ &= -\sum\limits_{x\in X, y\in Y}p(x,y)\log {p(x,y)} + \sum\limits_{x\in X}p(x)\log p(x)\\ & = H(X, Y) - H(X) \end{align*} $$

条件熵的贝叶斯公式:

$H(Y\left |X)=H(X\left|Y) - H(X) + H(Y)$

互信息:

概率论或信息论中,两个随机变量的互信息或转移信息是变量相互依赖的量度。不同于相关系数,互信息并不局限于实数值随机变量,它更加一般且决定着联合分布P(X,Y)和分解的边缘分布的乘积P(X)P(Y)的相似度。

一般地,两个随机变量X和Y的互信息如下定义:

I(X;Y) = \sum\limits_{y\in Y}\sum\limits_{x \in X} p(x,y)\,\log \left ( \frac{p(x,y)}{p(x)p(y)} \right )

连续性随机变量是求和符号被积分符号替代。

互信息是X和Y的联合分布对于假定的X和Y独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X;Y) =0当且仅当X和Y为独立随机变量。当X和Y独立时,p(x,y) = p(x)p(y),log函数此时为0.

依据互信息的定义,互信息又可以等价表示成如下形式:

\begin{align*} I(X;Y) &= H(X ) - H(X|Y) \\ &=H(Y) - H(Y|X) \\ &= H(X) + H(Y) - H(X, Y) \\ &= H(X, Y) - H(X|Y) - H(Y|X) \end{align*}

 

交叉熵:

在信息论中,基于相同事件测度的两个概率分布p和q的交叉熵是指,当基于一个“非自然”的概率分布q(真实分布p)进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。

基于概率分布p和q的交叉熵定义为:

H(p,q) = E_{p}[-\log{q}] = H(p) + D_{KL}(p ||q)

对于离散分布的p和q,这意味着:

H(p,q) = - \sum\limits_{x} p(x) \log q(x)

在大多数情况下,我们需要在不知道分布p的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集T创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。p是语料中词汇的真实分布,而q是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

H(T,q)= - \sum\limits_{i=1}^{N} \frac{1}{N} \log_2 q(x_i)

N是测试集大小,q(x)是在训练集上估计的事件x发生的概率。我们假设训练集是从p(x)的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

交叉熵经常作为机器学习中分类问题的损失函数。

相对熵:

相对熵又称KL散度,信息散度,信息增益,是两个概率分布PQ的差别的度量,它是非对称的,及PQ的度量和QP的度量是不相等的,具体下面公式有直观的体现。这里P经常表示数据的真实分布,而Q则表示数据的理论分布,或模型分布,p的近似分布。

离散随机变量,其概率分布P和Q的KL散度可按下列定义为

$$\begin{align*} D_{KL} (P\|Q) &= -\sum\limits_{i} P(i)\ln\frac{Q(i)}{P(i)} \\ &= -\sum\limits_{i}P(i)\ln Q(i) + \sum\limits_{i}P(i)\ln P(i) \end{align*} $$

连续随机变量:

$$\begin{align*} D_{KL} (P\|Q) &= -\int_{-\infty}^{+\infty} P(x)\ln\frac{Q(x)}{P(x)}d {x} \end{align*} $$

性质:

相对熵值为非负数:即$D_{KL}(P\|Q)\geq0$,当且仅当$P=Q$时取等号。

KL散度具有非对称性:即$D_{KL}(P\|Q) \neq D_{KL}(Q\|P)$

KL散度和其他量的关系:

自信息和KL散度的关系I(m) = D_{KL}(\delta_{im} ||\{p_i\})

互信息和KL酸度的关系

\begin{align*} I(X;Y) &= D_{KL}(P(X,Y) ||P(X)P(Y)) \\ &= E_X\{D_{KL}(P(Y|X)||P(Y))\} \\ &= E_Y\{D_{KL}(P(X|Y)||P(X)) \} \end{align*}

条件熵和KL散度的关系

\begin{align*} H(X|Y) &= \log N - D_{KL}(P(X, Y) || P_U(X)P(Y)) \\ &= H(X) - I(X; Y) \end{align*}

交叉熵和KL散度:

H(p,q) = E_p[-\log q] = H(P) + D_{KL}(p||q)

在机器学习中的应用,经常用来衡量对于同一个事件模型分布和真实分布的近似程度。如在VAE中的应用等。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值