联合分布,边缘分布,条件分布,互信息

注意:分布和概率有时候会混乱,有时候P(X)表示X的分布,有时候用F(X),有时候用p(X),具体的直接看作者说它是啥就是啥吧

分布函数

要求 F ( X ) F(X) F(X),实际上是 F X ( x ) = P { X < x } F_X(x)=P\{X<x\} FX(x)=P{X<x}

联合分布

P ( X , Y ) P(X,Y) P(X,Y),表示X,Y同时发生概率的分布

边缘分布

P ( X ) = P ( X , Y = ∞ ) P(X) = P(X,Y=\infty) P(X)=P(X,Y=)
即当Y可以取所有值时,或者说不考虑Y的取值时,X的概率分布

条件分布

和条件概率公式一样
p ( X ∣ Y ) = p ( X , Y ) / p ( Y ) p(X|Y) = p(X,Y)/p(Y) p(XY)=p(X,Y)/p(Y)
p ( X , Y ) = p ( X ∣ Y ) ∗ p ( Y ) = p ( Y ∣ X ) ∗ p ( X ) p(X,Y)=p(X|Y)*p(Y)=p(Y|X)*p(X) p(X,Y)=p(XY)p(Y)=p(YX)p(X)
利用上述公式从而可推导出三个即以上随机变量的条件分布与联合分布的转换公式

互信息

I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) =H(X)-H(X|Y) I(X;Y)=H(X)H(XY)
即X和Y的互信息=X的信息量 — 知道Y后,X的信息量(其实就是信息增益,在知道Y后,X的信息量的变化量)
或者说,x的信息量–Y中与x重复的信息量(“知道Y后,X的信息量”实际是因为知道Y后,Y中与X重复的部分就知道了,X的不确定性就减少了)
所以,互信息越大,表明重复的信息量越少,X和Y重复的信息越多,这也应该就是为什么叫“互信息”
注意这里是分号不是逗号,逗号的话可能就是x,y一起的信息量了,也就是两个事件同时发生的信息量
互信息定义
在这里插入图片描述

从定义推导到上面的相减的结果:
在这里插入图片描述
很简单,用到的其实就条件概率和联合概率的转换公式,看完最前面几个公式完全可以cover,别被吓到了。
最后的一个等式,前者来自信息熵的定义,后者来自条件熵的定义

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值