ML-0-熵、信息熵、互信息、KL散度

0. 熵(除本节外, l o g ∼ I n log\sim In logIn)
0.1 信息熵

对于随机变量 X X X, 信息熵:
H ( X ) = − ∑ i = 1 N p i l o g ( p i ) ,   P ( X = x i ) = p i . H(X)=-\sum^N_{i=1} p_ilog(p_i), \space P(X=x_i)=p_i. H(X)=i=1Npilog(pi), P(X=xi)=pi.

0.2 联合熵

对于随机变量 X , Y X,Y X,Y, 联合熵
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)

0.3 条件熵

也即引入 Y Y Y后对 X X X不确定性的影响。
H ( X ∣ Y ) = H ( X , Y ) − H ( Y ) H(X|Y)=H(X,Y)-H(Y) H(XY)=H(X,Y)H(Y)

0.4 互信息

随机变量相关度
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)

0.3 交叉熵

对于随机变量 X X X, 分布 p ( x ) , q ( x ) p(x), q(x) p(x),q(x):
H ( p , q ) = − ∑ x ∈ X p ( x ) l o g q ( x ) H(p,q)=-\sum_{x\in X}p(x)logq(x) H(p,q)=xXp(x)logq(x)

0.4 KL散度(Kullback-Leibler Divergence)

K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = − ∑ x ∈ X p ( x ) l o g q ( x ) p ( x ) KL(p||q)=H(p,q)-H(p)\\ =-\sum_{x\in X}p(x)log\frac{q(x)}{p(x)} KL(p∣∣q)=H(p,q)H(p)=xXp(x)logp(x)q(x)

注意一般求熵底为2( l o g 2 log_2 log2),单位为bit;若 log ⁡ ∼ I n \log\sim In logIn, 单位为nat.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值