一、两种不同的叶子结点
- 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,在这种情形下,我们把当前结点标记为叶结点
- 将其类别设定为该结点所含样本最多的类别
- 这是在利用当前结点的后验分布
- 当前结点包含的样本集合为空,不能划分,在这种情形下,把当前结点标记为叶结点
- 将其类别设定为其父结点所含样本最多的类别
- 这是把父结点的样本分布作为当前结点的先验分布
二、信息增益(Information gain)怎么来的
信息熵(Information entropy)的定义
,其中
表示当前样本集合D中第k类样本所占的比例,Ent(D)的值越小,D的纯度越高
信息增益
定义:假设在属性a上对样本集D进行划分,从总的信息熵到各个分支结点信息熵加权和的差值,就是“属性a对样本集D进行划分所获得的信息增益”
计算:
代表:ID3
三、信息增益率(Information gain ratio)怎么来的
信息增益准则对可取值数目较多的属性有所偏好,为了减小这种偏好可能带来的不利影响,就要对可取值数目较多的属性进行惩罚,即