机器学习基础知识—互信息理解

互信息的理解
 
我们在之前研究过两个随机变量的独立性,我们定义若两个随机变量X,Y满足
P(X,Y)=P(X)P(Y)
则我们说随机变量X,Y独立。下面来直观地理解这个公式,可以发现,如果X,Y独立,那么已知X,将不会对Y的分布产生任何影响,即是说P(Y)=P(Y|X),这个结果的证明也很简单,由贝叶斯公式:

即证。

由此可以看出,独立性反应了已知X的情况下,Y的分布是否会改变,或者说,在给定随机变量X之后,能否为Y带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系,但是却不能刻画他们的关系大小。下面我们引入互信息,它不仅能说明两个随机变量之间是否有关系,也能反应他们之间关系的强弱。我们定义互信息I(X,Y):

我们来稍微理解一下,log里面就是X,Y的联合分布和边际分布的比值,如果对所有X,Y,该值等于1,即是说他们独立的情况下,互信息I(X;Y)=0,即是说这两个随机变量引入其中一个,并不能对另一个带来任何信息,下面我们来稍稍对该式做一个变形

其中,H(Y)是Y的熵,定义为
H(Y)=−∫YP(Y)logP(Y)
衡量的是Y的不确定度,即使说,Y分布得越离散,H(Y)的值越高,而H(Y|X)则表示在已知X的情况下,Y的不确定度,而I(X;Y)则表示由X引入而使Y的不确定度减小的量,因而如果X,Y关系越密切,I(X;Y)越大,I(X;Y)最大的取值是H(Y),也就是说,X,Y完全相关,由于X的引入,Y的熵由原来的H(Y)减小了I(X;Y)=H(Y),变成了0,也就是说如果X确定,那么Y就完全确定了。而当X,Y独立时,I(X;Y)=0引入X,并未给Y的确定带来任何好处。

总结下I(X;Y)的性质: 1)I(X;Y)⩾0 2)H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X) 3)当X,Y独立时,I(X;Y)=0 4)当X,Y知道一个就能推断另一个时,I(X;Y)=H(X)=H(Y)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值