熵和互信息

最新推荐文章于 2021-04-28 21:51:07 发布

阿君聊风控

最新推荐文章于 2021-04-28 21:51:07 发布

阅读量260

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/u010569893/article/details/96562723

版权

20 篇文章 0 订阅

订阅专栏

自信息(self information)：衡量信息的多少；一个事件发生的概率越低，所包含的信息量越大；因此，自信息与该事件发生的概率呈反比； I(X) = log(1/p) = -log(p )，p是事件发生的概率
熵：平均信息量；信息的平均不确定性；H(X) = -p1log(p1) -p2log(p2)-…-pnlog(pn) ；熵的本质是香农信息量log(1/p)的期望。
条件熵H(Y|X)：知道X后Y还剩多少信息量；即X与Y的概率分布的相似性；
互信息（信息增益）：已知特征X的信息而使得对标签Y的信息的不确定性减少的程度；H(X)-H(X|Y) = H(Y) - H(Y|X) 这个差叫做X和Y的互信息，记作I(X;Y)。

互信息可衡量X与Y两个概率分布的相似性

互信息具有非负性和对称性，即I(X;Y)≥0, I(X;Y)=I(Y;X)

如果两个随机变量是相互独立的，那么I(X;Y)=0
交叉熵：交叉熵是衡量两个概率分布p，q之间的相似性。交叉熵在特征工程中，用来衡量两个随机变量之间的相似度；

H(p,q) = -p1log(q1)-p2log(q2)-…-pnlog(qn)
交叉熵和互信息相似都可衡量两个变量之间的相似性

关注

专栏目录