熵(Entropy) & 条件熵 (Conditional Entropy) & 相对熵(Relative Entropy)- 学习笔记

信息熵(Entropy):解决信息的度量问题

一条信息的信息量与其不确定性有直接的关系,如果对一件事情了解的很多,那么信息少一些,也能知晓事情本身;反之,如果对事情没有一点了解,那么则需要大量信息来对事情进行知晓。因此,信息量就等于不确定性的多少

香农利用“比特(Bit)”来度量信息量,一个bit是一位二进制数,1字节=8bit。信息量的比特数与所有可能情况的对数函数log有关。

信息熵的定义如下:

                                                                       H(X)=-\sum_ {x\in X}{P(x)log_2^{P(x)}}

由于熵的单位是二进制位(bit),所以是以log2为底,以下都是以log2为底。约定0log0=0

变量的不确定越大,熵也就越大,信息量也就越大。在热力学中,熵变是指体系混乱程度的变化,熵是衡量系统无序的度量。因此在信息论中利用"熵"这个词来表示。

我们知道的信息越多,随机事件的不确定性越小,不仅仅是直接相关信息(X)与事件有直接关系,一些相关信息(Y)也能够帮助我们去了解事件,增加确定性。因此,引入了“条件熵(Conditional Entropy)

定义在Y的条件下的条件熵为:

                                                                   H(X|Y)=-\sum_{x\in X,y\inY}{P(x|y)log_{P(x|y)}}
       

证明:H(X) >= H(X|Y)   ----->>>>熵越大不确定性越大,加入Y后不确定性减小。当Y信息是与X毫无关系的信息时,等号成立。(后补)

在上面提到了,Y是与X相关的信息,才会对X的熵产生影响。那么如何衡量,两者的相关性大小?

香农提出利用“互信息(Mutual Information)”来度量X与Y相关性的大小:

互信息定义如下:

                                             I(X,Y)=\sum_{x \in X y \in Y}{P(x,y) log \frac {P(x,y)}{P(x)P(y)}}

可以证明:I(X,Y)=H(X)-H(X|Y)

也就是说两个事件相关性的度量,就是在了解Y的情况下, 对于消除X不确定性所提供的信息量。

信息量被广泛用于度量一些语言现象的相关性。比如机器翻译领域需要解决单词的二义性问题:Bush(布什or灌木)。在这个里面,可以利用互信息解决了这个问题。找出与布什互信息较大的词语,与灌木互信息较大的词语。然后等 Bush出现后,查看其上下文中哪类次出现频率高,那么基本可以断定这里的Bush为哪个含义。

相对熵(Relative Entropy),也被称为Kullback-Leibler散度,是用来衡量两个取值为正数的函数的相关性。

定义如下:

关于相对熵的三条结论:

(1)对于两个完全相同的函数,他们的相对熵等于0,KL(P||Q)>=0。

(2)相对熵越大,两个函数差异越大,反则亦然

(3)对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性。

相对熵是不对称的,即:

                                                   KL(f(x)||g(x)) \neq KL(g(x)||f(x))

为了解决这个问题,提出了一种新的相对熵的计算方法如下:

                                            JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))]

相对熵有很多应用,衡量连个常用词在不同文本的概率分布中,是否为同义词。贾里尼克从条件熵和相对熵的角度出发,定义了一个新的语言模型复杂度,用来衡量语言模型的好坏。

参考文献:

[1]吴军-数学之美(第二版)第六章

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
(Entropy) 是信息论中的一个概念,用来衡量随机变量的不确定性。在机器学习中,我们通常使用交叉 (Cross-Entropy) 作为损失函数,用来衡量模型预测结果与实际结果之间的差异。 以下是一些关于和交叉的基本概念和公式。 ## (Entropy) 是一个概率分布的度量,它表示随机变量的不确定性。对于一个离散的随机变量 $X$,其的数学定义为: $$H(X)=-\sum_{x\in X}p(x)\log_2p(x)$$ 其中,$p(x)$ 表示随机变量 $X$ 取值为 $x$ 的概率,$\log_2$ 表示以 2 为底的对数。 可以看出,当 $p(x)$ 的分布越均匀(即所有 $x$ 的概率都相等)时,的值最大,达到 $H(X)=\log_2|X|$;当 $p(x)$ 的分布越集中在某些特定的取值上时,的值越小。 ## 交叉 (Cross-Entropy) 交叉是用来衡量模型预测结果与实际结果之间的差异的一种损失函数。对于一个离散的随机变量 $Y$,其真实分布为 $p(Y)$,模型预测的分布为 $q(Y)$,则交叉的数学定义为: $$H(p,q)=-\sum_{y\in Y}p(y)\log_2q(y)$$ 可以看出,当模型的预测结果与真实结果越接近时,交叉的值越小。 ## 交叉在机器学习中的应用 在机器学习中,我们通常使用交叉作为分类模型的损失函数。对于一个分类问题,我们需要将输入 $x$ 分类到 $k$ 个类别中的一个,并且每个类别都对应一个概率值 $p_i$,表示输入 $x$ 属于第 $i$ 个类别的概率。设模型的预测结果为 $q_1,q_2,...,q_k$,表示输入 $x$ 属于每个类别的概率预测值,则其交叉的数学定义为: $$H(p,q)=-\sum_{i=1}^kp_i\log_2q_i$$ 我们的目标是最小化交叉,使得模型的预测结果尽可能接近真实结果,从而提高模型的准确率。 以上就是关于和交叉的基本概念和公式,希望能对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Foneone

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值