ID3算法之信息熵等基本概念

引入

ID3算法是决策树系列中的经典算法之一,包含了决策树作为机器学习算法的主要思想。但ID3算法在实际应用中有诸多不足,因此之后提出了大量的改进算法,如C4.5算法和CART算法。

构造决策树的 核心问题 是在每一步如何选择 恰当的属性 对样本进行拆分。ID3算法使用信息增益进行属性选择度量,C4.5算法使用增益率进行属性选择度量,CART算法则使用基尼指数


一、信息增益

信息增益,顾名思义,就是信息增加,带来的益处。

我们用一个比较通俗的例子来讲解这些概念。

场景设定:《非诚勿扰》节目

随机变量:牵不牵手

假设女嘉宾不知道下一个上场的男嘉宾的任何信息,接受下一个上场的男嘉宾的不确定性是0.84(意思就是要不要接受这个男嘉宾,变化会是很大的)

但是当听到主持人介绍说,这位男嘉宾收入高达年薪千万,女嘉宾接受这个男嘉宾的不确定性马上降低到了0.32,因为信息的增加,使得女嘉宾更确定了要跟这位男嘉宾在一起。

中间变化的这些就是信息增益量,0.84 - 0.32 = 0.52, 0.52是信息增益量,即知道收入这个条件带来的好处,使不确定性降低了


二、信息熵

表示随机变量的不确定性。

在上面例子中,表示的是一开始,女嘉宾不知道男嘉宾任何信息的情况下,牵不牵手的不确定性,也就是0.84。

香农借用物理学中表示分子状态混乱程度的熵,提出用信息熵描述信源的不确定性,也就是信息量的大小。

概率描述的是确定性,信息熵描述的是不确定性,是两个相反的概念。

信息熵和概率成反比。

信息熵和信息量成正比。

也就是说,一个事情发生的概率越低,不确定性越高,从不确定到确定这个过程中可描述的信息就越多,所以信息量就越高。


三、条件熵

根据上面的例子,我们来介绍一下条件熵。

条件熵,就是在一个条件下,随机变量的不确定性。

在上面的例子中就是,知道了男嘉宾的收入后,牵不牵手的不确定性是0.32。


四、小结

信息增益 = 熵 - 条件熵。

信息增益:表示在一个条件下,信息不确定性减少的程度。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值