决策树
1.分类依据
计算每个属性进行划分的信息增益(率),选择最高的进行划分。
信息熵:越小表示该属性下的数据集纯度越高, 越适合进行划分。
信息增益:
信息增益率
2.剪枝
防止过拟合
预剪枝:在划分时,用验证集分别计算划分与不划分的精度进行比较来决定是否继续分裂。
后剪枝:决策树构建完毕后,用验证集自底向上对非叶子节点进行剪枝判断,若剪枝与不剪枝的精度相同,还是选择剪枝。
3.连续值
若属性为连续值,而非枚举型的值,将该属性所有的值进行排序,然后用二分法进行划分
4.缺失值
信息增益用它来表示
第一项表示无缺失样例/总样例
第二项表示所有无缺失样例的信息增益
5.多变量决策树
每次仅用单个属性