机器学习之十四：相对熵（KL散度）和交叉熵

最新推荐文章于 2021-08-18 21:31:32 发布

蓬莱道人

最新推荐文章于 2021-08-18 21:31:32 发布

阅读量1.7k

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/MOU_IT/article/details/79898095

版权

Machine Learning 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

样本间距离计算方法总结
1、熵的定义
在讲解决策树的博文中曾经提到过熵的定义，熵是表示随机变量不确定性的度量，熵越大，则随机变量的不确定性越大。设X是一个离散随机变量，X的概率分布为：

P (X = x i) = p i, i = 1, 2, 3..., n

$P(X=x_i)=p_i,i=1,2,3...,n$
则随机变量X的熵定义为：

H (X) = - \sum i = 1 n p i l o g p i

$H(X)=-\sum _{i=1}^n p_ilog\,p_i$
熵只依赖与X的分布，与X的取值无关，所以X的熵记做H(p),即

H (p) = - \sum i = 1 n p i l o g p i

$H(p)=-\sum _{i=1}^n p_ilog\,p_i$
2、相对熵
相对熵又称为KL散度（Kullback-Leibler Divergence），用来衡量两个分布之间的距离。设P和Q是X取值的两个离散概率分布：

P (X = x i) = p i, i = 1, 2, 3..., n Q (X = x i) = q i, i = 1, 2, 3..., n

$P(X=x_i)=p_i,i=1,2,3...,n \\ Q(X=x_i)=q_i,i=1,2,3...,n$
则

P P $P$ 对

Q

$Q$ 的相对熵记为

DKL(P||Q): D K L ( P | | Q ) : $D_{KL}(P||Q):$

D K L (P | | Q) = E P [log P ( X ) Q ( X )] = \sum i = 1 n P (X = x i) log P ( X = x i ) Q ( X = x i ) = \sum i = 1 n P (X = x i) log P (X = x i) - \sum i = 1 n P (X = x i) log Q (X = x i) = - H (p) - \sum i = 1 n P (X = x i) log Q (X = x i) = H p (q) - H (p)

$D_{KL}(P||Q)=E_P\,\,[\,\,\log\frac{P(X)}{Q(X)}\quad] =\sum_{i=1}^nP(X=x_i)\log\frac{P(X=x_i)}{Q(X=x_i)}\quad \\ =\sum_{i=1}^nP(X=x_i)\log P(X=x_i)-\sum_{i=1}^nP(X=x_i)\log Q(X=x_i) \\ =-H(p)-\sum_{i=1}^nP(X=x_i)\log Q(X=x_i)=H_p(q)-H(p)$
这里

H(p) H ( p ) $H(p)$ 为

P P $P$ 的熵，显然，当

P = Q

$P=Q$ 时,两者之间的相对熵

DKL(P||Q) D K L ( P | | Q ) $D_{KL}(P||Q)$ =0.上式最后的

Hp(q) H p ( q ) $H_p(q)$ 表示在

P P $P$ 分布下，使用

Q

$Q$ 进行编码需要的bit数，而

H(p) H ( p ) $H(p)$ 表示对真实分布

P P $P$ 所需要的最小编码bit数。基于此，相对熵的意义就很明确了：

D_{K L} (P | | Q)

$D_{KL}(P||Q)$ 表示在真实分布为

P P $P$ 的前提下，使用

Q

$Q$ 分布进行编码相对于使用真实分布

P P $P$ 进行编码（即最优编码）所多出来的bit数。
3、交叉熵
假设有两个分布P，Q，则它们在给定样本集上的交叉熵定义如下：

C E H (P, Q) = E_{P} [- \log Q (X)] = - \sum_{i = 1}^{n} P (X = x_{i}) \log Q (X = x_{i}) = H (p) + D_{K L} (P | | Q)

$CEH(P,Q)=E_P[-\log Q(X)]=-\sum_{i=1}^nP(X=x_i)\log Q(X=x_i) \\ =H(p)+D_{KL}(P||Q)$
可以看出，交叉熵与上一节定义的相对熵仅相差了

H(p) H ( p ) $H(p)$ ,当

P P $P$ 已知时，可以把

H (p)

$H(p)$ 看做一个常数，此时交叉熵与KL距离在行为上是等价的，都反映了分布P，Q的相似程度。最小化交叉熵等于最小化KL距离。它们都将在

P=Q P = Q $P=Q$ 时取得最小值

H(p) H ( p ) $H(p)$ （

P=Q P = Q $P=Q$ 时KL距离为0）
4、交叉熵的应用
多分类的问题上，真实的类标签可以看作是分布，对某个样本属于哪个类别可以用One-hot的编码方式，是一个维度为C的向量，C表示有C个类别。比如在5个类别的分类中，[0, 1, 0, 0, 0]表示该样本属于第二个类，其概率值为1。我们把真实的类标签分布记为

P P $P$ ，该分布中，当

x_{i}

$x_i$ 属于它的真实类别

c c $c$ 时，

P (X = x_{i}) = 1

$P(X=x_i)=1$ 。
同时，分类模型经过softmax函数之后，也是一个概率分布

Q Q $Q$ ，因为

\sum_{i = 1}^{C} Q (X = x_{i}) = 1

$\sum_{i=1}^CQ(X=x_i)=1$ ，所以我们把模型的输出的分布记为q，它也是一个维度为C的向量，如[0.1, 0.8, 0.05, 0.05, 0]。对一个样本来说，真实类标签分布与模型预测的类标签分布可以用交叉熵来表示：

C E H (P, Q) = - \sum i = 1 C P (X = x i) log Q (X = x i)

$CEH(P,Q)=-\sum_{i=1}^CP(X=x_i)\log Q(X=x_i)$
最终，对所有的样本，我们有以下损失函数：

L = - \sum k = 1 n \sum i = 1 C P k (X = x i) log Q k (X = x i)

$L=-\sum_{k=1}^n\sum_{i=1}^CP_k(X=x_i)\log Q_k(X=x_i)$
其中

Pk(X=xi) P k ( X = x i ) $P_k(X=x_i)$ 是样本

k k $k$ 属于类别

i

$i$ 的概率，

Qk(X=xi) Q k ( X = x i ) $Q_k(X=x_i)$ 是样本

k k $k$ 预测为属于类别

i

$i$ 的概率。

蓬莱道人

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习之十四：相对熵（KL散度）和交叉熵

1、熵的定义在讲解决策树的博文中曾经提到过熵的定义，熵是表示随机变量不确定性的度量，熵越大，则随机变量的不确定性越大。设X是一个离散随机变量，X的概率分布为： P(X=xi)=pi,i=1,2,3...,nP(X=x_i)=p_i,i=1,2,3...,n 则随机变量X的熵定义为： H(X)=−∑i=1npilogpiH(X)=-\sum _{i=1}^n p_ilog\,p
复制链接

扫一扫