信息论基础(包含最大熵模型)

一,基础

1,熵

如果X 是一个离散型随机变量,其概率分布为 p ( x ) = P ( X = x ) p(x) = P(X = x) p(x)=P(X=x) x ∈ R x\in R xR。X 的熵H(X) 为 H ( X ) = − ∑ x ∈ R p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in R}{p(x)log_2p(x)} H(X)=xRp(x)log2p(x)其中,约定0log 0 = 0。
H ( X ) H(X) H(X) 也可以写为 H ( p ) H(p) H(p)。通常熵的单位为二进制位比特(bit)。

熵值度量的是随机变量不确定性的大小或者说是为确定随机变量所需的信息量,随机变量的熵越大,它的不确定性也就越大,为确定随机变量所需的信息量也就越大。

最大熵模型:在只掌握未知分布的部分知识的情况下,符合已知知识的概率分布可能有很多个,但使熵值最大的概率分布最大真实地反映了实际的分布情况。也就是说在已知部分知识的前提下,关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。

2,联合熵

如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为: H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)联合熵实际上就是描述一对随机变量平均所需的信息量。

3,条件熵

给定随机变量X的情况下,随机变量Y的条件熵的定义如下:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) = ∑ x ∈ X p ( x ) [ − ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) ] = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( y ∣ x ) \begin{aligned} H(Y|X) &=\sum_{x\in X}p(x)H(Y|X=x) \\ &= \sum_{x\in X}p(x)[-\sum_{y\in Y}p(y|x)\log p(y|x)]\\ &=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x) \end{aligned} H(YX)=xXp(x)H(YX=x)=xXp(x)[yYp(yx)logp(yx)]=xX

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值