【机器学习】信息量，信息熵，交叉熵，KL散度和互信息（信息增益）

最新推荐文章于 2025-03-24 16:56:17 发布

哈乐笑

最新推荐文章于 2025-03-24 16:56:17 发布

阅读量2.7w

点赞数 36

分类专栏：机器学习文章标签：编码机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haolexiao/article/details/70142571

版权

这篇博客介绍了信息论的基本概念，包括信息量、信息熵、交叉熵和KL散度。信息量与事件发生的概率负相关，熵表示分布的不确定性。交叉熵用于衡量模型预测与真实分布的差异，常作为机器学习的损失函数。KL散度是衡量两个概率分布差异的非负量，与交叉熵有直接关系。博客还讨论了互信息和信息增益的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人，之前非常著名的那篇LSTM讲解的文章也是他写的。这篇文章详细讲解了信息论中许多基本概念的来龙去脉，而且非常的直观用了大量的图片，和形象化的解释。

信息量

信息量用一个信息所需要的编码长度来定义,而一个信息的编码长度跟其出现的概率呈负相关,因为一个短编码的代价也是巨大的,因为会放弃所有以其为前缀的编码方式,比如字母”a”用单一个0作为编码的话,那么为了避免歧义,就不能有其他任何0开头的编码词了.所以一个词出现的越频繁,则其编码方式也就越短,同时付出的代价也大.

I = l o g 2 (1 p ( x )) = - l o g 2 (p (x))

$I = log_2(\frac{1}{p(x)}) = -log_2(p(x))$

信息熵

而信息熵则代表一个分布的信息量,或者编码的平均长度

H (p) = \sum x p (x) log 2 (1 p ( x )) = - \sum x p (x) log 2 (p (x))

$H(p) = \sum_x p(x)\log_2\left(\frac{1}{p(x)}\right) = -\sum_x p(x)\log_2\left(p(x)\right)$
即信息量的均值

交叉熵 cross-entropy

交叉熵本质上可以看成,用一个猜测的分布的编码方式去编码其真实的分布,得到的平均编码长度或者信息量

H p (q) = \sum x q (x) log 2 (1 p ( x ))

$H_p(q) = \sum_x q(x)\log_2\left(\frac{1}{p(x)}\right)$
如上面的式子,用猜的的p分布,去编码原本真是为q的分布,得到的信息量

交叉熵 cross-entropy在机器学习领域的作用

交叉熵cross-entropy在机器学习领域中经常作为最后的损失函数
为什么要用cross-entropy呢，他本质上相当于衡量两个编码方式之间的差值，因为只有当猜测的分布约接近于真实分布，则其值越小。
比如根据自己模型得到的A的概率是80%，得到B的概率是20%，真实的分布是应该得到A，则意味着得到A的概率是100%，所以

L = - \sum i y i l o g (p (x i)) + (1 - y i) l o g (1 - p (x i))

$L = -\sum_iy_ilog(p(x_i))+(1-y_i)log(1-p(x_i))$
在LR中用cross-entry比平方误差方法好在：

在LR中，如果用平方损失函数，则损失函数是一个非凸的，而用cross-entropy的话就是一个凸函数
用cross-entropy做LR求导的话，得到的导数公式如下
$\partial L \partial θ j = - \sum i (y i - p ($

最低0.47元/天解锁文章

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。