在上一篇文章基于信息增益的ID3决策树介绍。中介绍了基本的决策树概念和基于信息增益的ID3决策树的计算。这篇文章中介绍一下如何使用Python实现一个ID3决策树,其中主要的代码来自于机器学习实战一书中,本人对其做了一些改动,增加了一些内容。
决策树的伪代码。
决策树的生成可以使用一个递归来实现,在西瓜书中给出了决策树的伪代码:
输入:训练集$ D={(x_1,y_1),(x_2,y_2),…,(x_m,y_m)}$;
属性集 A = a 1 , a 2 , . . . , a d A={a_1,a_2,...,a_d} A=a1,a2,...,ad.
过程:函数TreeGenerate(D,A)
1:生成节点node;
2:if D 中样本全属于同一类别 C then
3: 将node标记为C类叶节点;return
4:end if
5:if A= ∅ OR D中样本在A上取值相同 then
6: 将node标记为叶节点,其类别标记为D中样本数最多的类;return
7:end if
8:从A中选择最优划分属性 a ∗ a_* a∗;
9:for a ∗ a_* a∗的每一个值 a ∗ v a_*^v a∗v do
10: 为node生成一个分支;令 D v D_v D