MLAPP Chapter2 信息论

最新推荐文章于 2019-12-20 13:54:35 发布

Chvin.

最新推荐文章于 2019-12-20 13:54:35 发布

阅读量8.7k

点赞数

分类专栏： ML 文章标签：机器学习贝叶斯 MLAPP

ML 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

2.8 信息论

信息论关注的是以一种紧凑的方式表示数据(一种称为数据压缩或源代码编码的任务)，以及以一种对错误(一种称为错误修正或信道编码的任务)鲁棒性很好的方式传输和存储数据。

起初，这似乎与概率论和机器学习的关注点相去甚远，但实际上有一种亲密的联系。要了解这一点，请注意，紧凑地表示数据需要将短码字分配到可能性高的位字符串，并将较长的码字保留到不太可能的位字符串。

这与自然语言中的情况类似，在自然语言中，常见的词(如“a”、“the”、“and”)通常比罕见的词短得多。此外，要解码通过噪声信道发送的消息，需要有一个良好的关于人们发送的消息类型倾向的概率模型。在这两种情况下，我们都需要一个模型来预测哪种数据是可能的，哪种是不可能的，这也是机器学习中的一个核心问题(有关信息理论和机器学习之间的联系的更多细节，请参见MacKay 2003)。

显然，我们不能在这里深入了解信息理论的细节(参见封面和托马斯2006)，如果您有兴趣了解更多的话。然而，我们将在本书后面介绍一些基本概念。

2.8.1 熵（Entropy）

一个分布为P的随机变量X，他的熵用H(X)或H(p)表示，熵是不确定性的测度。特别地，对于有K个状态的离散变量，定义为：

H (X) ≜ - \sum k = 1 K p (X = k) l o g 2 p (X = k)

$H(X)\triangleq -\sum_{k=1}^Kp(X=k)log_2p(X=k)$

通常我们用log_2，在这种情况下单位被称为位(bits)(二进制数字binary digits的缩写)。如果用log以e为底，单位称为nats。
均匀分布是熵最大的离散型分布。因此，对于k元随机变量，当 $p(x = k) = 1/ k$ 时，熵最大，此时 $H(X)=log_2K$ 。
相反，熵最小的分布（为0）是任何一个把质量都放在一个状态上的delta函数。这样的分布没有任何的不确定性。

2.8.2 KL散度

一种测量两个概率分布(p和q)的不相似性的方法被称为kullleibler散度(KL散度)或相对熵。定义如下：

K L (p | | q) ≜ \sum k = 1 K p k l o g p k q k

$KL(p||q)\triangleq \sum_{k=1}^Kp_klog\frac{p_k}{q_k}$
将和替换成概率密度函数的积分，重写如下：

K L (p | | q) = \sum k p k log p k - \sum k p k log q k = - H (p) + H (p, q)

$KL(p||q)=\sum_kp_k\log p_k - \sum_kp_k\log q_k=-H(p)+H(p,q)$

H(p,q) H ( p , q ) $H(p,q)$ 被称为交叉熵：

H (p, q) ≜ - \sum k p k log q k

$H(p,q)\triangleq -\sum_kp_k\log q_k$
交叉熵是当我们使用模型q定义我们的码本时，用分布为p的数据源进行编码所需的平均比特数。如果我们用真是模型，H(p)是期望的比特值，所以KL散度是它们之间的差。换句话说，KL散度是编码数据所需的额外比特的平均数，因为我们使用分布q来编码数据，而不是真正的分布p。
“额外的比特数”说明

KL(p||q)≥0 K L ( p | | q ) ≥ 0 $KL(p||q)≥0$ 并且仅当p=q时为0，现在给出一个重要结论：
定理2.8.1(信息不平等) $KL(p||q)≥0 除非p=q$

2.8.3 互信息

（待续….）

Chvin.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MLAPP Chapter2 信息论

2.8 信息论信息论关注的是以一种紧凑的方式表示数据(一种称为数据压缩或源代码编码的任务)，以及以一种对错误(一种称为错误修正或信道编码的任务)鲁棒性很好的方式传输和存储数据。起初，这似乎与概率论和机器学习的关注点相去甚远，但实际上有一种亲密的联系。要了解这一点，请注意，紧凑地表示数据需要将短码字分配到可能性高的位字符串，并将较长的码字保留到不太可能的位字符串。这与自然语言中的情况类似...
复制链接

扫一扫