课程前言:
目的:
分类:
构造出一个模型,使得样本按照判定规则,可以从上往下,判断结果
每一条路径,都是一系列判定规则,决策树的假设空间,是所有分支的可能性,从假设空间中找到一个满足的路径,构建决策树
泛化能力强,即处理未知数据的决策树
基本流程:
如图4.2所示,重点在于如何从A中选择最优划分属性a
划分选择:
关键在于如何选择最优的属性进行划分?
我们希望所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高
经典的划分方法:
信息增益:Gain(D,a)=原来的信息熵 - 现在的信息熵,(信息增益越大,意味着使用属性a来划分所获得“纯度提升”越大
存在问题,倾向于取值数目多的属性
信息熵的最大值为1,最小值为0
增益率:对取值数目较少的属性有所偏好——