白话信息熵

原创 2017年08月04日 03:19:58

    距离有近有远,时间有长有短,温度有高有低,我们知道可以用米或者千米来度量距离,用时分秒可以来度量时间的长短,用摄氏度或者华氏度来度量温度的高低,那么我们常说这句话信息多,那句话信息少,那么信息的多少用什么度量呢?信息量!

    信息量是度量知晓一个未知事物需要查询的信息的多少,单位是比特。比如昨天你错过一场有8匹赛马的比赛,编号为1~8号,每匹马赢的概率都一样,那么你需要获得多少信息(也就是猜测多少次)才可以知道哪匹马获胜?利用二分法,猜测三次即可,如下图:


    那么你需要的信息量就是3比特。信息量度量的是从未知已知所需信息的多少,比如上图,一开始不知道哪匹马 获胜,我们开始猜测,最后猜测是1号获胜,其中需要3比特信息。

    但是因为每匹马是等概率获胜的,而你又不知道哪匹马获胜,如果最后猜测出来是3号胜,这同样也需要3比特信息, 同理最后猜测出其它号的马获胜,每个都是需要3比特信息。那么现在我想计算一下,猜测出最后获胜的马,平均需要多少比特信息呢?也就是对信息量求期望(加权平均),我们给这个期望一个名字,就是信息熵这里每匹马获胜是等概率的,当然平均也是3比特。

    那么假如现在1~8号获胜的概率分别为{1/2、1/4、 1/8、 1/16、 1/64、 1/64、 1/64、 1/64},那么现在你平均要猜测对少次呢?猜测的时候,肯定是按照概率大小的来测,如下图:


    对应上图,猜测每匹马获胜至少要猜测的次数分别为1、2、3、4、6、6、6、6;那么平均要猜测多少次呢?即:


也就是猜测出获胜的马匹,平均需要2次。由于我们描述事物的时候常常使用随机变量,给出随机变量取值的概率, 那么该如求该随机变量取某个值时的信息量和该随机变量的信息熵呢?上例中我们用次数来表示信息量,对信息求期望作为信息熵,那么我们如何抽象成数学模型呢?

信息量:随机变量取某个值时,其概率倒数的对数就是信息量。


其中底数可以是2,单位是比特,底数也可以是其他,单位也相应不同,这里不予细究。

    比如上例概率不等的时候,猜测6号获胜的所需的信息量为:


这恰好符合我们的认识。

信息熵:信息量的期望。


比如上例,设X为赛马编号,则X的信息熵为:


所以,这也符合我们之前的认识。

例:

    如果上例还是不明白,再举一个例子,一个箱子有9个球,4个红色,3个绿色,2个黄色,如下图:


    我们从中抽取一个红球、黄球、绿球所带来的信息量分别为:


由于从箱子里抽取球,有三种可能,红、黄、绿。设X为球的颜色,则:

即随机变量X的信息熵为1.53。

总结:

信息量:从未知到已知所需信息的含量。

信息熵:信息量的期望。



版权声明:本文为博主原创文章,转载需注明出处。

信息论里的信息熵到底是什么含义?互信息的定义

让我们说人话!好的数学概念都应该是通俗易懂的。 信息熵,信息熵,怎么看怎么觉得这个“熵”字不顺眼,那就先不看。我们起码知道这个概念跟信息有关系。而它又是个数学模型里面的概念,一般而言是可以量化的。所...
  • ustcyy91
  • ustcyy91
  • 2016年11月29日 23:18
  • 1375

【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)

首先先强烈推荐一篇外文博客Visual Information Theory这个博客的博主colah是个著名的计算机知识科普达人,之前非常著名的那篇LSTM讲解的文章也是他写的。这篇文章详细讲解了信息...
  • haolexiao
  • haolexiao
  • 2017年04月12日 15:20
  • 3033

计算文章中每个词的权重值-信息熵及代码实现

计算出每个词的信息熵可以用来作为词的权重,信息熵公式是: W代表该词,p代表该词左右出现的不同词的数目。 比如现在某篇文章中出现了两次 A W C, 一次B W D 那么W的左侧信息熵为: 2...
  • lihaitao000
  • lihaitao000
  • 2016年06月29日 16:15
  • 2192

机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model)

机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model) 个人公众号:follow_bobo 在机器学习里面,信息熵(Shannon’s En...
  • bobo_jiang
  • bobo_jiang
  • 2017年11月07日 22:25
  • 79

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广...
  • goodhuajun
  • goodhuajun
  • 2014年09月26日 16:48
  • 11935

利用信息熵提取文章关键词

目前,对于文章中提取关键词最常用的方法莫过于TF-IDF,但是这样提取出来的关键词并不一定准确。   举个最简单的例子来说,在新闻中最前面出现“记者李元芳报道”,分词后的结果是“记者、李元芳、报道...
  • jj12345jj198999
  • jj12345jj198999
  • 2013年10月15日 16:24
  • 6745

【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

(转载请注明出处:http://blog.csdn.net/buptgshengod)
  • gshengod
  • gshengod
  • 2014年04月24日 07:28
  • 16739

机器学习实战之决策树(1)---ID3算法与信息熵,基尼不纯度

(1)关于ID3算法百度文库有一篇十分详细的文章,介绍看一个例子,给出了具体的计算过程。 文章链接:http://wenku.baidu.com/view/7933c2f6f61fb7360b4...
  • promise_LOVE
  • promise_LOVE
  • 2015年06月17日 10:39
  • 1371

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广...
  • huobanjishijian
  • huobanjishijian
  • 2016年06月06日 20:35
  • 549

评分卡模型剖析之一(woe、IV、ROC、信息熵)

信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广...
  • u010159842
  • u010159842
  • 2017年10月30日 13:41
  • 110
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:白话信息熵
举报原因:
原因补充:

(最多只允许输入30个字)