二、决策树(Decision Tree)
算法基本思想:根据数据集中数据的特征进行逐步的推理、判断,从而达到分类或预测的目的。决策树属于图解法,因为类似于树的结构,因此成为决策树。常见的决策树算法有ID3、C4.5以及CART。
算法举例:
在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每一个特征,完成测试后,原始数据集就被会分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确地划分数据分类,无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型,则需要根据下一层特征重复划分数据子集,直到所有具有相同类型的数据均在一个数据子集内。
算法的优缺点及适用范围:
优点:计算复杂度不高,输入结果易于理解,对中间值的缺失不敏感,可