1.决策树的算法流程
决策树的算法流程主要是:
1.如果当前样本集全部为同一类别,则返回这一类标签
2.如果当前属性集为空集或者D中样本在属性集中的取值全部相同,那么采用多数表决法,返回样本数最多的类标签
3.如果不满足上面三个条件,说明当前结点还可以继续划分,这时候要选择最优的属性
4.选择完属性之后根据属性值划分样本,如果在某个取值下样本集为空,那么标记为父节点中样本最多的类,否则递归产生子节点
5.返回根节点
2.ID3决策树
ID3决策树选择最优属性的方式是选择能使划分后的样本集合信息增益最大的属性
假设样本第k类的样本所占的比例是 pk ,样本一共有 C 类
信息熵的定义为