关于信息熵的解释

最新推荐文章于 2024-03-04 11:45:22 发布

ogzhen

最新推荐文章于 2024-03-04 11:45:22 发布

阅读量273

点赞数 1

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ogzhen/article/details/101020045

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关于信息熵的解释

最近在面试的时候被问到了信息熵，回答的不是很流利，很是汗颜，于是复习一下记录一下，也能加深一下对信息熵的理解

为什么信息熵的形式是 $-\sum{p*\log_2p}$ ?

这里有两点解释：

第一。假设存在一个随机变量 $x$ ，当我们观测到这个随机变量的一个样本时，我们接收到了多少的信息量呢，这里有一个基本的解释，越是不可能发生的事情的发生的时候，信息量越大，越是可能发生的事它的信息量越少，因此信息量的度量应该依赖于概率分布 $p (x)$ ，所以说熵的定义应该是概率的单调函数。
第二，假设存在两个相互独立的随机变量 $x$ ， $y$ ，那么分别观测这两个这两个随机变量和同时观测这两个随机变量得到的信息量是一样的，即有如下的表达：

$h (x + y) = h (x) + h (y)$ （1）

从概率的角度来看有：

$p (x, y) = p (x) p (y)$ (2)

从公式（1）（2）来看，信息熵 $h$ 的定义应该是一个概率 $p (x)$ 的 $l o g$ 函数，为什么这么说呢？因为 $l o g$ 函数的性质呀，接下来解释一哈
- $log_axy = \log_ax + \log_ay$ ，那么 $log_ap(x,y) = \log_ap(x)p(y)$
  
  $log_ap(x) + log_ap(y)$
  
  这不就是和上面的两个公式(1)(2)对应起来的吗，声明一下，最后关于log函数的解释仅仅是个人的一点见解，如有错误还望指出！另外个人觉得公式（1）的 $h (x + y)$ 写成 $h (x, y)$ 会更好一点。
最后呢，我们用熵来评价整个随机变量 $x$ 的平均信息量，而平均最好的度量就是随机变量的期望啦，即：

$-\sum{p(x)log_2p(x)}$

负号仅仅是用来保证熵为正数

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于信息熵的解释

关于信息熵的解释最近在面试的时候被问到了信息熵，回答的不是很流利，很是汗颜，于是复习一下记录一下，也能加深一下对信息熵的理解为什么信息熵的形式是−∑p∗log⁡2p-\sum{p*\log_2p}−∑p∗log2p ?这里有两点解释：第一。假设存在一个随机变量xxx，当我们观测到这个随机变量的一个样本时，我们接收到了多少的信息量呢，这里有一个基本的解释，越是不可能发生的事情的发生的时...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。