实例:
每个结点代表一个动物分类。根结点包含所有动物。每个非叶子结点包含一些分支,分别对应动物的某一属性的取值。如:身材大小,叫声等。
形式化表示:个子大 and(合取) 脖子短 and鼻子长 推出(符号不好打出来。。)可能是大象
构造一棵决策树需要解决4个问题:
1)收集待分类的数据,这些数据的所有属性应该是完全标注的。
2)设计分类原则,即数据的哪些属性可以用来分类。以及如何进行该属性的量化。
3)分类原则的选择。在众多的分类准则中,每一步选择哪一准则使最终的树更令人满意。
4)设计分类停止调节,实际应用中,数据的属性很多,真正有分类意义的属性往往是有限的几个。因此在必要的时候应该停止数据集的分裂,相应的准则包括:
通用决策树的分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小最大的准则,这种方案使最具有分裂潜力的准则被优先提取出来。
另外一种形式的决策树,感觉也挺有用并且比较能看懂的。链接:
http://wiki.mbalib.com/wiki/决策树#c120082
决策树的纯度计算,算法优化等:
http://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html