1. 决策树的优势
决策树作为处理分类问题最经常被用到的算法,它有着优于其他机器学习算法的简明性特征,即无需了解机器学习的原理知识也能够轻松的了解这个算法是如何工作的。
2.决策树的构造
(1). 找到决定性的特征,这个特征将帮助我们最好的划分集合
举例:
完成测试,原始数据被划分成几个子集,如果某个分支下的所有数据已经属于同一子集,则无需继续划分。如果数据集合中的数据仍然不属于同一类型,则需要继续划分。划分原则同划分原始数据,该过程将一直持续直到所有数据子集都属于同一类型。
(2). 算法伪代码 – 递归实现
createBranch()
Check whether data belong to the same class:
if return class_label
else
find the optimal feature to divide the dataset
divide dataset
create branch node
for every divided subset
call function createBranch() and