信息熵
信息论中的熵,又叫信息熵,用来衡量一个随机变量的不确定程度。熵越大,不确定性越大。
H(X)=E[I(xi)]=−∑n−1NP(xi)log(P(xi))
H
(
X
)
=
E
[
I
(
x
i
)
]
=
−
∑
n
−
1
N
P
(
x
i
)
l
o
g
(
P
(
x
i
)
)
交叉熵
如果一个随机变量X服从p(x)分布,q(x)用于近似p(x)的概率分布,那么随机变量和模型q之间的交叉熵定义为:
H(X,q)=−∑xp(x)log(q(x))
H
(
X
,
q
)
=
−
∑
x
p
(
x
)
l
o
g
(
q
(
x
)
)
- 交叉熵本质上是用一个猜测的分布的编码方式去编码其真实分布,得到的平均编码长度或者信息量(最短的平均编码长度 = 信源的不确定程度 / 传输的表达能力,传输的表达能力为 log2n l o g 2 n ,n为类别数)。
- 交叉熵相当于衡量两个编码方式之间的差值,因为只有当猜测的分布越接近于真实分布,则其值越小。
- 交叉熵损失函数是机器学习常用的一个损失函数,目标是让H(X,q)尽可能的小。对于二分类问题, L=−∑iyilog(p(xi))+(1−yi)log(1−p(xi)) L = − ∑ i y i l o g ( p ( x i ) ) + ( 1 − y i ) l o g ( 1 − p ( x i ) )
相对熵(KL散度)
相对熵是用来衡量两个分布之间的相似度。当两个随机分布完全相同,相对熵为0。
D(P||D)=H(p,q)−H(p) =−∑i=1npilog(qi)−(−∑i=1npilog(pi)) =∑i=1npilogpiqi
D
(
P
|
|
D
)
=
H
(
p
,
q
)
−
H
(
p
)
=
−
∑
i
=
1
n
p
i
l
o
g
(
q
i
)
−
(
−
∑
i
=
1
n
p
i
l
o
g
(
p
i
)
)
=
∑
i
=
1
n
p
i
l
o
g
p
i
q
i
- 相对熵是用交叉熵减去真实分布的信息熵,表示用估计分布计算的平均编码长度(Define)比最短平均编码长度长多少,因此交叉熵=信息熵+相对熵
联合熵
联合熵表示一对随机变量(二维),平均下来所需的信息量。
H(X,Y)=−∑x∈X∑y∈Yp(x,y)log(p(x,y))
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
(
p
(
x
,
y
)
)
条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性(期望值)。
H(Y|X)=∑x∈Xp(x)H(Y|X=x) =−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x) =−∑x∈X∑y∈Yp(x,y)logp(y|x)
H
(
Y
|
X
)
=
∑
x
∈
X
p
(
x
)
H
(
Y
|
X
=
x
)
=
−
∑
x
∈
X
p
(
x
)
∑
y
∈
Y
p
(
y
|
x
)
l
o
g
p
(
y
|
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
y
|
x
)
条件熵=联合熵-单独的熵 即H(Y|X)=H(X,Y)-H(X),证明如下:
H(X,Y)=−∑x,yp(x,y)logp(x,y) =−∑x,yp(x,y)log(p(y|x)p(x)) =−∑x,yp(x,y)logp(y|x)−∑x,yp(x,y)logp(x) =H(Y|X)−∑x,yp(x,y)logp(x) =H(Y|X)−∑x∑yp(x,y)logp(x) =H(Y|X)−∑xlogp(x)∑yp(x,y) =H(Y|X)−∑x(logp(x))p(x) =H(Y|X)−∑xp(x)logp(x) =H(Y|X)+H(X)
H
(
X
,
Y
)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
(
p
(
y
|
x
)
p
(
x
)
)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
y
|
x
)
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
)
=
H
(
Y
|
X
)
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
)
=
H
(
Y
|
X
)
−
∑
x
∑
y
p
(
x
,
y
)
l
o
g
p
(
x
)
=
H
(
Y
|
X
)
−
∑
x
l
o
g
p
(
x
)
∑
y
p
(
x
,
y
)
=
H
(
Y
|
X
)
−
∑
x
(
l
o
g
p
(
x
)
)
p
(
x
)
=
H
(
Y
|
X
)
−
∑
x
p
(
x
)
l
o
g
p
(
x
)
=
H
(
Y
|
X
)
+
H
(
X
)
互信息
互信息表示一个联合分布中的两个信息的纠缠程度或者互相影响那部分的信息量
I(X,Y)=H(X)+H(Y)−H(X,Y)
I
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
I(X,Y)=H(Y)−H(Y|X)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)
I
(
X
,
Y
)
=
H
(
Y
)
−
H
(
Y
|
X
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
决策树中的信息增益就是互信息!
参考:
https://www.cnblogs.com/kyrieng/p/8694705.html
https://blog.csdn.net/haolexiao/article/details/70142571
https://blog.csdn.net/u014422406/article/details/77899293