NLP02:信息论基础

公众号:数据挖掘与机器学习笔记

1.熵

熵用于描述信息的不确定性,定义为:
H ( X ) = − ∑ x p ( x ) l o g 2 p ( x ) H(X)=-\sum_xp(x)log_2p(x) H(X)=xp(x)log2p(x)
其中,X代表离散型随机变量,当对数函数以2为底时,熵的单位是比特(bit),以e为底时单位是奈特(nat)。熵的大小不取决于 X X X的实际取值,而仅依赖其概率分布。

2.联合熵和条件熵

当有两个随机变量 ( X , Y ) (X,Y) (X,Y)时,如果其联合分布为 p ( x , y ) p(x,y) p(x,y),则其联合熵 H ( X , Y ) H(X,Y) H(X,Y)定义为
H ( X , Y ) = − ∑ x ∑ y p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=-\sum_x\sum_yp(x,y)log_2p(x,y) H(X,Y)=xyp(x,y)log2p(x,y)
联合熵体现随机变量 X X X Y Y Y共同携带的信息量,它的值大于或等于任何一个随机变量单独的熵,同时也小于或等于二者熵的和。

条件熵描述了在已知一个随机变量值的前提下,对另一个随机变量的熵的计算。基于条件 X X X Y Y Y的信息熵表示为 H ( Y ∣ X ) H(Y|X) H(YX),则有:
H ( Y ∣ X ) = ∑ x ∑ y p ( x , y ) l o g 2 p ( y ∣ x ) H(Y|X)=\sum_x\sum_yp(x,y)log_2p(y|x) H(YX)=xyp(x,y)log2p(yx)
条件熵、联合熵之间的关系是
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X)=H(X,Y)-H(X) H(YX)=H(X,Y)H(X)

3.相对熵与互信息

相对熵是两个随机分布之间距离的度量。比如一个样本集中的两个概率分布为 p p p q q q,其中 p p p为真实分布, q q q为假定分布,如果按照真实分布来衡量识别一个样本所需要的编码长度的期望为 H ( p ) = ∑ i p ( i ) l o g 2 1 p ( i ) H(p)=\sum_ip(i)log_2\frac {1}{p(i)} H(p)=ip(i)log2p(i)1,如果按照假定分布 q q q来表示真实分布 p p p的平均编码长度,则有 H ( p , q ) = ∑ i p ( i ) l o g 2 1 q ( i ) H(p,q)=\sum_ip(i)log_2\frac {1}{q(i)} H(p,q)=ip(i)log2q(i)1,称 H ( p , q ) H(p,q) H(p,q)为交叉熵。因为 H ( p ) H(p) H(p)是最小编码长度, H ( p , q ) − H ( p ) H(p,q)-H(p) H(p,q)H(p)是冗余的信息量,这个差值被称为相对熵,也叫KL散度。

p ( x ) p(x) p(x) q ( x ) q(x) q(x)两个概率密度函数之间的相对熵定义为
D ( p ∣ ∣ q ) = ∑ x ∈ χ p ( x ) l o g x p ( x ) q ( x ) = E p l o g 2 p ( X ) q ( X ) D(p||q)=\sum_{x \in \chi}p(x)log_x\frac{p(x)}{q(x)} \\ =E_plog_2 \frac {p(X)}{q(X)} D(pq)=xχp(x)logxq(x)p(x)=Eplog2q(X)p(X)
相对熵可以用来衡量在相同事件空间中两个事件的相似程度,而互信息则用来衡量在不同事件空间中两个信息的相关性。

定义:设两个随机变量为 X X X Y Y Y,它们的联合概率密度函数为 p ( x , y ) p(x,y) p(x,y),其边缘概率密度函数分布为 p ( x ) p(x) p(x) p ( y ) p(y) p(y),则 X X X Y Y Y的互信息记作:
I ( X , Y ) = ∑ x ∑ y p ( x , y ) l o g 2 p ( x , y ) p ( x ) p ( y ) D ( p ( x , y ) ∣ ∣ p ( x ) p ( y ) ) I(X,Y)=\sum_x\sum_yp(x,y)log_2 \frac{p(x,y)}{p(x)p(y)}\\ D(p(x,y)||p(x)p(y)) I(X,Y)=xyp(x,y)log2p(x)p(y)p(x,y)D(p(x,y)p(x)p(y))
熵与互信息的关系是
I ( X , Y ) = H ( X ) − H ( X ∣ Y ) ≥ 0 I(X,Y)=H(X)-H(X|Y) \geq0 I(X,Y)=H(X)H(XY)0
互信息就是随机变量 X X X的熵 H ( X ) H(X) H(X)在给定随机变量 Y Y Y的条件熵 H ( X ∣ Y ) H(X|Y) H(XY)后的缩减量

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值