@(信息科学原理)
导论
香农熵
信息: h(x)=−logp(x) h ( x ) = − log p ( x )
其中 0log0=0 0 log 0 = 0 ,并且定义 log1e=1nats log 1 e = 1 n a t s 和 log12=1bits log 1 2 = 1 b i t s
联合熵
互信息
衡量两个信息的相关性大小的量
条件熵
知道的信息越多,随机事件的不确定性就越小
proof: H(X,Y)=H(X)+H(Y|X) H ( X , Y ) = H ( X ) + H ( Y | X ) :
H(X,Y)=−∑x∈X,y∈YP(x,y)logP(x,y)=−∑x∈X,y∈YP(x,y)log[P(y|x)P(x)]=−∑x∈X,y∈YP(x,y)[logP(y|x)+logP(x)]=−∑x∈X,y∈YP(x,y)logP(y|x)+[−∑x∈XP(x)logP(x)]=H(Y|X)+H(x) H ( X , Y ) = − ∑ x ∈ X , y ∈ Y P ( x , y ) log P ( x , y ) = − ∑ x ∈ X , y ∈ Y P ( x , y ) log [ P ( y | x ) P ( x ) ] = − ∑ x ∈ X , y ∈ Y P ( x , y ) [ log P ( y | x ) + log P ( x ) ] = − ∑ x ∈ X , y ∈ Y P ( x , y ) log P ( y | x ) + [ − ∑ x ∈ X P ( x ) log P ( x ) ] = H ( Y | X ) + H ( x )
proof: H(X,Y|Z)=H(X|Z)+H(Y|X,Z) H ( X , Y | Z ) = H ( X | Z ) + H ( Y | X , Z )
H(X,Y|Z)=−∑x,y,zP(x,y,z)logP(x,y|z)=−∑x,y,zP(x,y,z)log[P(x,y,z)P(z)]=−∑x,y,zP(x,y,z)log[P(x,y,z)P(x,z)P(x,z)p(z)]=[−∑x,y,zP(x,y,z)logP(x,y,z)P(x,z)]+[−∑x,y,zP(x,y,z)logP(x,z)P(z)]=[−∑x,y,zP(x,y,z)logP(x,y,z)P(x,z)]+[−∑x,zP(x,z)logP(x,z)P(z)]=H(Y|X,Z)+H(X|Z) H ( X , Y | Z ) = − ∑ x , y , z P ( x , y , z ) log P ( x , y | z ) = − ∑ x , y , z P ( x , y , z ) log [ P ( x , y , z ) P ( z ) ] = − ∑ x , y , z P ( x , y , z ) log [ P ( x , y , z ) P ( x , z ) P ( x , z ) p ( z ) ] = [ − ∑ x , y , z P ( x , y , z ) log P ( x , y , z ) P ( x , z ) ] + [ − ∑ x , y , z P ( x , y , z ) log P ( x , z ) P ( z ) ] = [ − ∑ x , y , z P ( x , y , z ) log P ( x , y , z ) P ( x , z ) ] + [ − ∑ x , z P ( x , z ) log P ( x , z ) P ( z ) ] = H ( Y | X , Z ) + H ( X | Z )
相对熵(KL-散度)
note:
DKL(P∣∣Q)≥0 D K L ( P ∣∣ Q ) ≥ 0 ,用于衡量两个分布的相似性
交叉熵
边缘概率,条件概率,联合概率
- 边缘概率就是计算每一边
- 联合概率计算的是
P(X=x,Y=y)=P(y|x)P(x)
P
(
X
=
x
,
Y
=
y
)
=
P
(
y
|
x
)
P
(
x
)
- 条件概率计算的是 P(y|x)=P(x,y)P(x) P ( y | x ) = P ( x , y ) P ( x )
对于离散的随机变量:
对于连续的随机变量:
example