自然语言处理基础之信息熵，联合熵，条件熵，交叉熵，相对熵

最新推荐文章于 2024-05-04 17:38:38 发布

VIP文章天才厨师1号

最新推荐文章于 2024-05-04 17:38:38 发布

阅读量2k

点赞数 3

分类专栏：自然语言处理文章标签：机器学习信息论

本文链接：https://blog.csdn.net/weixin_40449129/article/details/90264500

版权

本文主要介绍信息论基本相关知识，这些知识在机器学习中的相关算法的基础，是学习机器学习及深度学习的基础知识。本文具体介绍信息熵、交叉熵及相对熵，需要深入了解信息论知识，请参考《信息论基础》。

1）信息熵（Information Entropy）

信息熵来源于克劳德·爱尔伍德·香农的信息论，在介绍信息熵之前，我们先来了解信息量的概念。
人类交流可以理解信息的交流。你接收的任何一条信息，都包含一定的信息量，只是每条信息对应的信息量可能会有不同。比如国兵取得奥运会金牌，国足取得世界杯总冠军等都包含一些信息量，但它们包含的信息量不同。由于国足取得世界杯总冠军这个事件的概率很小，需要确认这个事件，你需要了解很多的信息，所以国足包含的信息量更大。因此，信息量是用来确定一件事情所需要的信息量的大小，某事件发生的概率小，则该事件的信息量大，信息量与事件发生的概率成反比（1）。
如果我们有两个不相关的事件 x 和 y，那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和。
               $I (x, y) = I (x) + I (y)$ （2）
因为两个事件是独立不相关的，因此必须满足 $p (x, y) = p (x) p (y)$ （3）
根据以上三个要求，香农构造自信息函数 $I (X)$ 为：
               $log(\frac{1}{p(x)}) =-logp(x)$
$I (x)$ 自信息 (self-information)函数图像如下：
自信息函数图像
对随机变量的信息量求期望即为信息熵（Information Entropy）,它是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望。
      $-\sum_{x}p(x)log(p(x))=-\sum_{i=1}^{n}p(x_i)logp(x_i)$

最低0.47元/天解锁文章

天才厨师1号

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理基础之信息熵，联合熵，条件熵，交叉熵，相对熵

本文主要介绍信息论基本相关知识，这些知识在机器学习中的相关算法的基础，是学习机器学习及深度学习的基础知识。本文具体介绍信息熵、交叉熵及相对熵，需要深入了解信息论知识，请参考《信息论基础》。1）信息熵（Information Entropy）       信息熵来源于克劳德·爱尔伍德·香农的信息论，在介绍信息熵之前，我们先来了解信息量的概念。 ...
复制链接

扫一扫