决策树是基本的机器学习分类算法,它的输入是一组带标签的数据,输出是一颗决策树,树的非叶结点代表判断逻辑,叶子结点代表分类子集。
决策树算法原理是通过训练数据形成if-then的判断结构。从树的根节点到叶节点的每一条路径构成一个判断规则。我们需要选择合适的特征作为判断节点,可以快速的分类,减少决策树的深度。最理想的情况是,通过特征的选择把不同类别的数据集贴上对应类标签,树的叶子节点代表一个集合,集合中数据类别差异越小,其数据纯度越高。
- 输入:训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x 3 , y 3 ) } D=\{(x_1,y_1), (x_2, y_2),...,(x_3,y_3)\} D={(x1,y1),(x2,y2),...,(x3,y3)},属性集 A = { a 1 , a 2 , . . . , a n } A=\{a_1,a_2,...,a_n\} A={a1,a2,...,an}
过程:抽象为函数TreeGenerate(D,A)
注:最优划分属性即为能把最多结点分为一类的属性
1. 生成根结点node
2. if D中样本全部属于某一类C,then
3. 标记根节点为C类叶子结点;return
4. endif
5. if A = 空集 or D样本在A上取值相同 then
6. 标记根结点为D中样本数最多的结点;return
7. endif
8. 从A中选取最优划分属性a*
9. for a*的每一个值a*v do
10. 为node生成一个分支Dv,表示D中在a上取值为a*v的所有的样本的子集
11. if Dv为空 then
12. 将分支结点标记为叶子结点,其类别标记为D中样本最多的类;return
13. else
14. 以TreeGenerate(Dv, A\{a*})为分支结点递归
15.
输出:以node为根节点一个一颗决策树
决策树的生成是一个递归过程,有三种情形会导致递归返回:
- 当前结点的样本完全属于同一类别(无需划分)
- 当前划分时的属性集为空集,或者所有样本在所有属性上取值都相同(无法划分)
- 当前结点集合为空(不能划分)
参考文献
机器学习 - 周志华
分类算法 – 决策树ID3算法