决策树 - 原理分析

最新推荐文章于 2020-01-10 20:39:06 发布

yangke004

最新推荐文章于 2020-01-10 20:39:06 发布

阅读量166

点赞数 1

本文链接：https://blog.csdn.net/qq_29573903/article/details/84778031

版权

信息量是由这个事件发生的概率所决定。经常发生的事件是没有什么信息量的，只有小概率事件才有信息量，所以信息量的定义为：
在这里插入图片描述

熵用来衡量随机变量的不确定性，Shannon entropy 定量化了这种不确定性（熵就是信息量的期望），有以下公式：
推导：令y=I(X)
在这里插入图片描述
速记：熵代表混乱程度：一个系统越有序，熵就越低，反之，熵越大。
补充：数学期望是什么？
1、数学期望的基本计算公式：

条件熵（局部现象发生前提下的熵），表示在已知随机变量X的前提下，随机变量y的不确定性，公式为：
在这里插入图片描述
注意：X也是一个变量
熵和条件熵中概率由数据估计得到时，所对应的熵和条件熵称为经验熵和经验条件熵

结合例子理解条件熵
https://zhuanlan.zhihu.com/p/26551798

信息增益表示得知特征X(年龄)的信息使得类Y(见与不见)的信息的不确定性减少程度。
特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差
在这里插入图片描述
信息增益率（C4.5）：惩罚参数 * 信息增益

信息增益比本质：是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。

惩罚参数：数据集D以特征A作为随机变量的熵的倒数
在这里插入图片描述
缺点：信息增益比偏向取值较少的特征
原因：当特征取值较少时HA(D)的值较小，因此其倒数较大，因而信息增益比较大。因而偏向取值较少的特征。
基于以上缺点，并不是直接选择信息增益率最大的特征，而是先在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中再选择信息增益率最高的特征。