-
自信息(self information):衡量信息的多少;一个事件发生的概率越低,所包含的信息量越大;因此,自信息与该事件发生的概率呈反比; I(X) = log(1/p) = -log(p ),p是事件发生的概率
-
熵:平均信息量;信息的平均不确定性;H(X) = -p1log(p1) -p2log(p2)-…-pnlog(pn) ; 熵的本质是香农信息量log(1/p)的期望。
-
条件熵H(Y|X):知道X后Y还剩多少信息量;即X与Y的概率分布的相似性;
-
互信息(信息增益):已知特征X的信息而使得对标签Y的信息的不确定性减少的程度;H(X)-H(X|Y) = H(Y) - H(Y|X) 这个差叫做X和Y的互信息,记作I(X;Y)。
互信息可衡量X与Y两个概率分布的相似性
互信息具有非负性和对称性,即I(X;Y)≥0, I(X;Y)=I(Y;X)
如果两个随机变量是相互独立的,那么I(X;Y)=0
-
交叉熵:交叉熵是衡量两个概率分布p,q之间的相似性。交叉熵在特征工程中,用来衡量两个随机变量之间的相似度;
H(p,q) = -p1log(q1)-p2log(q2)-…-pnlog(qn)
交叉熵和互信息相似都可衡量两个变量之间的相似性
熵和互信息
最新推荐文章于 2021-04-28 21:51:07 发布