信息熵
H
(
x
)
=
−
∑
x
i
∈
X
p
(
x
i
)
l
o
g
2
(
p
(
x
i
)
)
H(x)=-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i))
H(x)=−∑xi∈Xp(xi)log2(p(xi))
代表x包含的信息量
联合熵
H
(
x
,
y
)
=
−
∑
x
i
∈
X
∑
y
i
∈
Y
p
(
x
i
,
y
i
)
l
o
g
2
(
p
(
x
i
,
y
i
)
)
H(x,y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i,y_i)log_2(p(x_i,y_i))
H(x,y)=−∑xi∈X∑yi∈Yp(xi,yi)log2(p(xi,yi))
代表x,y总共包含的信息量,
p
(
x
i
,
y
i
)
p(x_i,y_i)
p(xi,yi)是联合和概率,如果是离散的,假设x有n种可能性,y有m种可能性,把mn种可能性全部当成z(xy同时成立)的概率,求z的熵。
条件熵
H
(
x
∣
y
)
=
−
∑
x
i
∈
X
∑
y
i
∈
Y
p
(
x
i
∣
y
i
)
l
o
g
2
(
p
(
x
i
,
y
i
)
)
H(x|y)=-\sum_{x_i\in{X}}\sum_{y_i\in{Y}}p(x_i|y_i)log_2(p(x_i,y_i))
H(x∣y)=−∑xi∈X∑yi∈Yp(xi∣yi)log2(p(xi,yi))
在已知y的情况下,x包含了多少信息
条件熵与联合熵的关系
H
(
x
,
y
)
=
H
(
x
)
+
H
(
y
∣
x
)
H(x,y)=H(x)+H(y|x)
H(x,y)=H(x)+H(y∣x)
x,y共同包含信息量=x包含信息量+已知x情况下y包含信息量
对比
P
(
x
,
y
)
=
P
(
x
)
∗
P
(
y
∣
x
)
P(x,y)=P(x)*P(y|x)
P(x,y)=P(x)∗P(y∣x),本质上是一个意思,乘法取对数就是加法
熵的连锁规则
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
H(X)−H(X∣Y)=H(Y)−H(Y∣X)
H(X)−H(X∣Y)=H(Y)−H(Y∣X)
对比:
P
(
X
,
Y
)
=
P
(
X
)
∗
P
(
Y
∣
X
)
=
P
(
Y
)
∗
P
(
X
∣
Y
)
P(X,Y)=P(X)*P(Y∣X)=P(Y)*P(X∣Y)
P(X,Y)=P(X)∗P(Y∣X)=P(Y)∗P(X∣Y)
P
(
X
)
∗
P
(
X
∣
Y
)
=
P
(
Y
)
∗
P
(
Y
∣
X
)
P(X)*P(X∣Y)=P(Y)*P(Y∣X)
P(X)∗P(X∣Y)=P(Y)∗P(Y∣X)
上面叫熵的连锁反应,下面变一变是贝叶斯公式
定义
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
{I(X;Y)=H(X)−H(X∣Y)}
I(X;Y)=H(X)−H(X∣Y)互信息,互信息指的就是x和y同时包含的信息,等于x包含的信息-已知y情况下x包含的信息,也就是y可以推测出的x包含的信息
互信息、条件熵、联合熵关系
交叉熵
H
(
X
,
q
)
=
−
∑
x
p
(
x
)
l
o
g
q
(
x
)
H(X,q)=-\sum_xp(x)logq(x)
H(X,q)=−∑xp(x)logq(x)
交叉熵的概念就是衡量估计模型和真实概率分布之间差异情况的。 (别人写的,我觉得不太对,相对熵才是)。我觉得交叉熵是使用一个分布去估计真实分布所包含的信息量。
cross entropy常用于机器学习中的分类问题,我们对样本进行预测后,将获得他是每一类的概率,就是上述公式里的q,然后我们使用这个概率去预测真实分布,真实分布就是只有他属于的那一类概率为1,其他都为0。
如果我们的分类完全正确,那么熵应该是0(因为确定每个东西属于哪一类),那么交叉熵也应该是0,与真实的熵没有差别。
PS:我认为损失函数本质上是相对熵,只不过真实样本是完全确定的信息熵等于0
相对熵
D
(
p
∣
∣
q
)
=
∑
x
i
∈
X
p
(
x
i
)
l
o
g
2
(
p
(
x
i
)
q
(
x
i
)
)
D(p||q)=\sum_{x_i\in{X}}p(x_i)log_2(\frac{p(x_i)}{q{(x_i)}})
D(p∣∣q)=∑xi∈Xp(xi)log2(q(xi)p(xi))
写成减法
D
(
p
∣
∣
q
)
=
−
∑
x
i
∈
X
p
(
x
i
)
l
o
g
2
(
q
(
x
i
)
)
−
(
−
∑
x
i
∈
X
p
(
x
i
)
l
o
g
2
(
p
(
x
i
)
)
)
D(p||q)=-\sum_{x_i\in{X}}p(x_i)log_2(q(x_i))-(-\sum_{x_i\in{X}}p(x_i)log_2(p(x_i)))
D(p∣∣q)=−∑xi∈Xp(xi)log2(q(xi))−(−∑xi∈Xp(xi)log2(p(xi)))
相对熵=交叉熵-信息熵
就是模型预测的熵和我真实的熵之间的差值
当两个分布完全相同,相对熵为0,相对熵表达的是两个分布之间的距离(KL距离)。
PS:相对熵是不对称的
互信息与相对熵:
I
(
x
,
y
)
=
D
(
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
)
I(x,y)=D(p(x,y)||p(x)p(y))
I(x,y)=D(p(x,y)∣∣p(x)p(y))
互信息=联合分布相对于独立分布的程度(距离)