决策树
优点:计算复杂度不高,输出结果易于理解,中间值的缺失对其影响较小,可以处理无关联的“特征数据”。
缺点;容易产生过度匹配。
适用数据类型:数值型和标称型。
构建决策树的注意点
- 找到决定性特征(数据集的某个特征在划分数据分类时起确定作用,我们必须找到这个特征)
- 评估每个特征(为了找到决定性特征,划分出最佳结果)
一般设想思路
- 测试结束后,原始数据被划分为几个“数据子集”
- 几个“数据子集”在第一个决策点的所有分支上。这是如果有某个分支下的数据属于同一类型,则这些数据已经已经被正确的划分数据类型。相反数据子集内的数据不属于同一类型,则需要继续重复划分数据子集的类型,直到所有具有相同类型的数据都在一个数据子集中!(这里划分数据子集的方法和划分原始数据的方法一致,都是找到决定性特征,进行归类)