考虑某个未知的分布
p
(
x
)
p(x)
p(x),假定我们已经使用了一个近似的分布
q
(
x
)
q(x)
q(x)对它进行了建模。如果我们使用
q
(
x
)
q(x)
q(x)来建立一个编码体系,用来把x的值传给接受者,那么由于我们使用了
q
(
x
)
q(x)
q(x)而不是真正的
p
(
x
)
p(x)
p(x),因此在具体化x的值时,我们需要一些附加信息。我们需要的平均的附加信息量为
K
L
(
p
∣
∣
q
)
=
−
∫
p
(
x
)
l
n
q
(
x
)
d
x
−
(
−
∫
p
(
x
)
l
n
p
(
x
)
d
x
)
KL(p||q)=-\int p(x)\mathrm{ln} q(x)dx-(-\int p(x)\mathrm{ln}p(x)dx)
KL(p∣∣q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)
=
−
∫
p
(
x
)
l
n
q
(
x
)
p
(
x
)
d
x
=-\int p(x)\mathrm{ln} \frac{q(x)}{p(x)}dx
=−∫p(x)lnp(x)q(x)dx这被称为分布
p
(
x
)
p(x)
p(x)和
q
(
x
)
q(x)
q(x)之间的相对熵或者KL散度。
现在考虑由
p
(
x
,
y
)
p(x,y)
p(x,y)给出的两个变量x和y组成的数据集。如果变量不是独立的,我们可以通过考察联合概率分布与边缘概率分布乘积之间的KL散度来判断它们是否接近于相互独立。
I
[
x
,
y
]
=
K
L
(
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
)
I[x,y]=KL(p(x,y)||p(x)p(y))
I[x,y]=KL(p(x,y)∣∣p(x)p(y))
=
−
∫
∫
p
(
x
,
y
)
l
n
p
(
x
)
p
(
y
)
p
(
x
,
y
)
d
x
d
y
=-\int \int p(x,y)\mathrm{ln}\frac{p(x)p(y)}{p(x,y)}dxdy
=−∫∫p(x,y)lnp(x,y)p(x)p(y)dxdy这就被称为x和y之间的互信息。
使用概率的加和规则和乘积规则,我们可以看到互信息与条件熵之间的关系为
I
[
x
,
y
]
=
H
[
x
]
−
H
[
x
∣
y
]
=
H
[
y
]
−
H
[
y
∣
x
]
I[x,y]=H[x]-H[x|y]=H[y]-H[y|x]
I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减少。从贝叶斯的观点来看,我们可以把
p
(
x
)
p(x)
p(x)看成x的先验概率分布,把
p
(
x
∣
y
)
p(x|y)
p(x∣y)看成我们观察到新数据y之后的后验概率分布。因此互信息表示一个新的预测y造成的x的不确定性的减少。
机器学习面试必知:KL散度
最新推荐文章于 2024-08-26 12:02:02 发布