1.1、核心思想
在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
1.2、具体方法
从根结点(root node)开始,对结点计算所有可能的特征信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择未知。最后得到一个决策树。
1.3、算法流程
输入:训练数据集D,特征集A,阈值ϵ
输出:决策树T
1.4、ID3算法的缺点
- ID3 没有剪枝策略,容易过拟合
- 信息增益准则对可取值数目较多的特征有所偏好
- 只能用于处理离散分布的特征
- 没有考虑缺失值