信息论复习笔记(1):信息熵、条件熵,联合熵,互信息、交叉熵,相对熵

1.1 信息和信息的测量

1.1.1 什么是信息

信息是对接收者来说是一种不确切的知识,可以认为是一种不确定性的度量。比如下面的例子,假设随机变量 X= ‘出生年份’:

1) I will be one year older next year. ----> No information
2) I was born in 1993.  ----> little information
3) I was born in 1990s. ---->More information

可见,信息量随机变量可能值的数量相关。随机变量能取到的值越多,代表事件的不确定度越大,包含的信息越多。不确定度越大,信息量越多

1.1.1 信息怎么表示

例如,一个班有30个学生,我们要用一个二进制序列区分他们,需要多少bits?

l o g 2 30 = 4.907 b i t s log_2 30 = 4.907 bits log230=4.907bits

所以至少需要5个bits才能代表每个学生

1.2 信息熵

在通信系统中,信息熵用来表示平均每符号携带多少比特(bit)信息,信息熵的单位是 bit/symbol(比特每符号)。其背景如下:

我们需要把一个信源符号,转化成一个0-1的二进制比特形式,那么需要多少个二进制比特位,才能表达这个通信符号的所有信息呢?

上文说到,信息代表不确定性,与事件的概率相关。那么假设一个信源有5种可能的符号,记为 x 1 , x 2 , x 3 , x 4 , x 5 x_1,x_2,x_3,x_4,x_5 x1,x2,x3,x4,x5, 并且每个符号出现的概率分别为 P ( x 1 ) , P ( x 2 ) , P ( x 3 ) , P ( x 4 ) , P ( x 5 ) P(x_1), P(x_2),P(x_3),P(x_4),P(x_5) P(x1),P(x2),P(x3),P(x4),P(x5),
所以(平均每比特携带的信息量)为:
H ( X ) = E [ l o g 2 P ( X ) − 1 ] = ∑ i = 1 5 P ( x i ) ∗ l o g 2 P ( x i ) − 1 H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1} H(X)=E[log2P(X)1]=i=15P(xi)log2P(xi)1

1.3 条件熵和联合熵

联合熵上与联合分布相关。联合熵表示为:
H ( X , Y ) = − ∑ x ϵ X ∑ y ϵ Y P ( X , Y ) l o g 2 P ( X , Y ) H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y) H(X,Y)=xϵXyϵYP(X,Y)log2P(X,Y)
条件熵上与条件分布联合分布相关。条件熵表示为:
H ( X ∣ Y ) = − ∑ x ϵ X ∑ y ϵ Y P ( X , Y ) l o g 2 P ( X ∣ Y ) H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y) H(XY)=xϵXyϵYP(X,Y)log2P(XY)

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

链式法则:
H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X) H(X,Y)=H(XY)+H(Y)=H(X)+H(YX)

1.4 互信息

互信息为减去条件熵
I ( X , Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) − H ( X ∣ Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) - H(X|Y) I(X,Y)=H(Y)H(YX)=H(X)H(XY)
互信息为 熵 的和减去 联合熵
I ( X , Y ) = H ( Y ) + H ( X ) − H ( X , Y ) I(X,Y ) = H(Y) + H(X ) - H(X,Y) I(X,Y)=H(Y)+H(X)H(X,Y)

上诉过程可以用图加深理解:
在这里插入图片描述
通俗理解:一个变量A对变量B不确定性的削弱程度。
互信息是指是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。
互信息新词发现
左右熵
某词出现的情况下,其左边词和右边词的搭配越丰富,效果越好。
互信息,

1.5 相对熵和交叉熵

相对熵和交叉熵

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值