信息熵--决策树的建立算法ID3中使用

转http://baike.baidu.com/view/401605.htm
1948 年,香农提出了“信息熵”(shāng) 的概念,解决了 对信息的量化度量 问题。
   什么是信息?
  信息现代定义
。[2006年,医学信息(杂志),邓宇等].
  信息是 物质、能量、信息及其属性的标示 逆维 纳信息定义
  信息是 确定性的增加 逆香农 信息定义
  信息是 事物现象及其属性标识 的集合。2002年
   《博弈圣经》中的信息熵:
  信息熵:信息的基本作用就是 消除人们对事物的不确定性 。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中现象信息的混乱。
  香农指出,它的准确信息量应该是 
   = -(p1*log p1 + p2 * log p2 + ... +p32 *log p32)
  其中,p1,p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:
   变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大 。 
  信息熵是信息论中用于 度量信息量 的一个概念。 一个系统越是有序,信息熵就越低
  反之, 一个系统越是混乱,信息熵就越高 。所以,信息熵也可以说是 系统有序化程度 的一个度量。
  熵的概念源自热物理学.假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳 定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西 (能量),使得a、b分离。这时,系统进入另一种稳定状态,此时,信息熵最低。热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减 少(使系统更加有序化),必须有外部能量的干预。
  信息理论的鼻祖之一Claude E. Shannon把 信息(熵)定义为离散随机事件的出现概率 。所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。 而信息熵和热力学熵是紧密相关的。根据Charles H. Bennett对Maxwell's Demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息 熵的符号与热力学熵应该是相反的。一般而言, 当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。 我们可以认为,从信息传播 的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。 
  信息熵的计算是非常复杂的。而具有多重前置条件的信息,更是几乎不能计算的。所以在现实世界中 信息的价值大多是不能被计算出来的。但因为信息熵和热力学熵的紧密相关性,所以信息熵是可以在衰减的过程中被测定出来的。因此信息的价值是通过信息的传递 体现出来的。在没有引入附加价值(负熵)的情况下,传播得越广、流传时间越长的信息越有价值。
  熵首先是物理学里的名词. 在传播中是指信息的不确定性,一则高信息度的信息熵是很低的,低信息度的熵则高。 具体说来,凡是导致随机事件集合的肯定性, 组织性 ,法则性或有序性等增加或减少的活动过程,都可以用信息熵的改变量这个统一的标尺来度量。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值