1. 决定分类属性;
2.对目前的数据表,建立一个节点N;
3.如果数据库中的数据都属于同一类,N,就是树叶,在树叶上标出所属的类。
4.如果数据表中没有其他属性可以考虑,则N也是树叶,则按照少数服从多数的原则在树叶上标出所属类别。
5.否则,根据平均信息期望值E或Gain值选出一个最佳属性作为节点的测试属性。
6.节点属性选定后,对于该属性中的每个值:
从N生成一个分支,并将数据表中与该分支有关的数据收集形成分支节点的数据表,从表中上次节点属性的那一栏,若果分支数据表非空,则运用以上算法
原始表:
计
数
|
年龄
|
收入
|
学生
|
信誉
|
归类:买计算
机?
|
64
|
青
|
高
|
否
|
良
|
不买
|
64
|
青
|
高
|
否
|
优
|
不买
|
128
|
中
|
高
|
否
|
良
|
买
|
60
|
老
|
中
|
否
|
良
|
买
|
64
|
老
|