本文主要对三种递归返回作出解释,ID3基本算法请大家自行搜索学习大佬们的绝美解释
(图片来源:周志华《机器学习》)
在学习决策树ID3算法的过程中,发现很多文章都非常详细用例子讲解了利用信息增益挑选特征的过程,但是对三种递归返回情况都未作出详细解释。
各路大佬们再次默认小菜鸡一定能明白…其实并不是…所以本菜鸡通过参考【1】这篇文章,并加上自己啰里八嗦的解释,终于弄明白了这三个递归返回的情况。
在决策树基本算法中,有三种情形会导致递归返回
(不再继续选取新属性划分特征而是直接返回为叶结点):
- 当前结点包含的样本全属于同一类别,无需划分,直接把该结点做为叶结点,类别划分为该结点下所有样本同属的类别;
- 当前属性集为空,或者所有样本在所有属性上取值相同,无法划分,直接把该结点做为叶结点,类别划分为该结点下所有样本中出现次数最多的类别;
- 当前结点包含的样本集合为空集,不能划分,直接把该结点做为叶结点,类别划分为父结点中出现次数最多的类别。
接下来用Titanic简化数据集来具体说明三种情况
数据集如下: