熵和互信息

  1. 自信息(self information):衡量信息的多少;一个事件发生的概率越低,所包含的信息量越大;因此,自信息与该事件发生的概率呈反比; I(X) = log(1/p) = -log(p ),p是事件发生的概率

  2. 熵:平均信息量;信息的平均不确定性;H(X) = -p1log(p1) -p2log(p2)-…-pnlog(pn) ; 熵的本质是香农信息量log(1/p)的期望。

  3. 条件熵H(Y|X):知道X后Y还剩多少信息量;即X与Y的概率分布的相似性;

  4. 互信息(信息增益):已知特征X的信息而使得对标签Y的信息的不确定性减少的程度;H(X)-H(X|Y) = H(Y) - H(Y|X) 这个差叫做X和Y的互信息,记作I(X;Y)。

    互信息可衡量X与Y两个概率分布的相似性

    互信息具有非负性对称性,即I(X;Y)≥0, I(X;Y)=I(Y;X)

    如果两个随机变量是相互独立的,那么I(X;Y)=0

  5. 交叉熵:交叉熵是衡量两个概率分布p,q之间的相似性。交叉熵在特征工程中,用来衡量两个随机变量之间的相似度;

    H(p,q) = -p1log(q1)-p2log(q2)-…-pnlog(qn)
    交叉熵和互信息相似都可衡量两个变量之间的相似性

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值