分类算法非常适合预测或描述标签为二元或标称类型的数据集,对于标签为序数类型的数据集,分类技术则不太有效,因为分类技术不考虑隐藏在序数中的“序”关系,对于标签其他形式的联系如子类与超类(包含的关系),分类技术也不太适合。
本文是分类模型系列的初篇,先介绍最基本的分类/回归模型——决策树模型。决策树分类模型打算分为三篇来说明,第一篇先说明决策树生长,第二篇介绍决策树的剪枝过程,第三篇介绍常用的决策树模型算法。
1.树的生长过程
决策树的生长一般采用贪心的策略,所有训练样本都会参与到树的生长过程,树生长完成后所有训练样本都能被明确的分类。训练集 中表示各样本的属性值,表示的标签,表示样本的属性集,则决策树的构建方法如下
- 生成结点node
- 若D中所有样本均属于同一类别C,则将结点node标记为叶结点,其类归为类C,返回
- 若A为空、或者D中样本在A中属性上取值相同, 则将结点node记为叶节点,其类归为D中样本数最多的类,返回
- 若2、3中情况均未出现时,从A中选择一个最优划分属性,对的每一个划分值,为node结点生成一个分支,令表示在