信息熵

最新推荐文章于 2021-08-06 16:03:27 发布

-倾城之恋-

最新推荐文章于 2021-08-06 16:03:27 发布

阅读量221

点赞数

分类专栏：机器学习统计优化

本文链接：https://blog.csdn.net/P081513083/article/details/103447705

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

统计

23 篇文章 0 订阅

订阅专栏

优化

12 篇文章 0 订阅

订阅专栏

信息熵

信息熵是统计学习中常见概念，用来衡量一个随机变量 $X$ 的不确定性，不确定性和概率分布 $p (X)$ 有关，因此有下式：
$H (X)$ 或者 $H(p)=-\sum\limits_{x} p(x)log(p(x))=E_{x}log(\frac{1}{p(x)})$ 。
其在信息论中的含义为，编码随机变量X所需的最小的平均bit数。
由此衍生出来的概念有交叉熵, 相对熵（也叫KL散度），条件熵，联合熵。

交叉熵

假设 $p$ 为随机变量 $X$ 的真实分布(如果未知，可以通过采样近似)， $q$ 为随机变量 $X$ 的近似分布，则** $p$ 对 $q$ 的**交叉熵，：
$H(p,q)=-\sum\limits_x p(x)log(q(x))$ 。
其含义为基于分布 $q$ 对来源于分布 $p$ 的样本 $X$ 进行编码所需平均bit数。（分布 $q$ 必须已知，分布 $p$ 可以已知也可以未知，如果 $p$ 未知，则通过来源于分布 $p$ 的大量样本，采样法求平均最小bit数）。

相对熵

相对熵，也叫KL散度，是衡量两个分布的距离的, $p$ 对 $q$ 的相对熵为()：
$KL(p||q)=-\sum\limits_x p(x)log(\frac{q(x)}{p(x)})=-\sum\limits_x p(x)log(q(x))-(-\sum\limits_x p(x)log(p(x)))$
其含义为基于分布 $q$ 对来源于分布 $p$ 的样本 $X$ 进行编码平均所多花费的bit数。
相对熵=交叉熵-信息熵。

条件熵

条件熵，即已知随机变量 $X$ ，随机变量 $Y$ 的熵：
$\\=\sum\limits_{x} p(X=x)H(Y|X=x) \\=-\sum\limits_{x} p(X=x) \sum\limits_{y}p(Y=y|X=x)log(p(Y=y|X=x)) \\=-\sum\limits_{x,y}p(x,y)log(p(y|x))$ 。

联合熵

$H(X,Y)=-\sum\limits_X\sum\limits_Yp(X,Y)log(p(X,Y))$ ,
$H (X, Y) = H (Y ∣ X) + H (X)$ 。

注意1：

在EM算法与变分推断中
$l o g p (x) = l o g p (x, z) - l o g p (z ∣ x)$
$l o g p (x) = E L B O (q) + K L (q ∣ ∣ p)$
$ELBO(q)=\sum\limits_z q(z)log\frac{p(x,z)}{q(z)}$
$KL(q||p)=-\sum\limits_z q(z) log\frac{p(z|x)}{q(z)}$

注意2：

在多类分类任务的交叉熵损失函数中
$L(x,y)=-\sum\limits_{k=1}^{K} y_klog(\hat{y}_k)$
$K$ 为类别数，
$y_k$ 为观察样本 $x$ 的标注被转化为 $K$ 维one-hot向量后，第 $k$ 维的值(0或1)，
$\hat{y}_k$ 为观察样本 $x$ 属于类别 $k$ 的预测概率 $\hat{y}=h_{\theta}(x)$ 。

注意3：

在多类分类任务的对数或对数似然损失函数中
$L (x, y) = - l o g (p (Y = y ∣ X = x))$ 。
对数损失函数和交叉熵损失函数是等价的。计算对数损失函数实际就是计算交叉熵损失函数。
这两种损失函数可以由极大(log)似然估计自然导出[2]。
$log\prod\limits_{n=1}^N p(Y=y^{(n)}|X=x^{(n)};\theta) \\=\sum_{n=1}^Nlog(p(Y=y^{(n)}|X=x^{(n)};\theta))$
$logp(Y=y^{(n)}|X=x^{(n)};\theta) \\=log\prod\limits_{k=1}^K\hat{y}_k^{y_k} \\=\sum_{k=1}^Ky_klog\hat{y}_k$
$K$ 为类别数，
$y_k$ 为观察样本 $x$ 的标注被转化为 $K$ 维one-hot向量后，第 $k$ 维的值(0或1)，
$\hat{y}_k$ 为观察样本 $x$ 属于类别 $k$ 的预测概率 $\hat{y}=h_{\theta}(x)$ 。

注意4：

最小化KL散度y原则等价于极大似然估计原则：
假设 $p (x)$ 是 $X$ 的未知真实分布， $q(x;\theta)$ 是 $X$ 的已知的近似分布，如果最小化 $p$ 对 $q$ 的KL散度：
$\min KL(p||q) \\=\min-\sum\limits_x p(x)logq(x;\theta)-(-\sum\limits_x p(x)logp(x)) \\=\max\sum\limits_x p(x)logq(x;\theta) \\\simeq\max\sum\limits_{n=1}^N logq(x^{(n)};\theta) \\=\max log\prod\limits_{n=1}^Nq(x^{(n)};\theta)$
[1]. https://www.cnblogs.com/kyrieng/p/8694705.html
[2]. Pattern Recognition and Machine learning, p206.

-倾城之恋-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息熵

信息熵信息熵是统计学习中常见概念，用来衡量一个随机变量XXX的不确定性，不确定性和概率分布p(X)p(X)p(X)有关，因此有下式：H(X)H(X)H(X)或者H(p)=−∑xp(x)log(p(x))=Exlog(1p(x))H(p)=-\sum\limits_{x} p(x)log(p(x))=E_{x}log(\frac{1}{p(x)})H(p)=−x∑p(x)log(p(x))=E...
复制链接

扫一扫