1、简述决策树的构建过程
2、决策树常见的决策树算法有哪些?请描述它们在进行树的生成过程中,具体的特征选择算法,以及它们的对比?
3、CART回归树构建过程
4、决策树的优缺点
5、决策树如何防止过拟合?说说具体方法。
1、简述决策树的构建过程
(1)构建根节点,将所有训练样本都放根节点
(2)选择最优的特征进行分裂,通过特征值对根节点数据集划分成子集合
(3)若子集非空或停止条件,递归(2)直到根节点数据集都被正确分类或没有特征可划分
2、决策树常见的决策树算法有哪些?请描述它们在进行树的生成过程中,具体的特征选择算法,以及它们的对比?
ID3通过信息增益划分特征,每次选信息增益最大的特征进行划分
C4.5通过最大信息增益率(信息增益比)划分特征
CART分类树,通过最小基尼指数进行特征划分
CART回归树,通过选取最优特征的最优值,将区域进行二分,每个区域用样本标签均值代表这个区域的预测值
3、CART回归树构建过程
(1)选取最优切分变量的最优切分点,划分为两个子区域
(2)求子区域上的预测值(子区域标签值的平均)
(3)对子区域进行(1)、(2)的递归操作,直至满足停止条件
(4)预测时,样本预测标签=被划到区域的预测值
4、决策树的优缺点
优点:
(1)对缺失值不敏感,对特征容忍度高,可离散可连续
(2)可解释性好,可以计算特征重要度
(3)有特征选择等辅助功能
(4)可以解决线性和非线性问题
(5)运行速度快
缺点:
(1)容易忽略特征之间的相互关联
(2)样本不均衡会影响效果
(3)单棵树容易过拟合,效果一般
5、决策树如何防止过拟合?说说具体方法。
防止模型过拟合的一般思路:数据-模型-正则化-训练方式
(1)预剪枝-限制树的深度、叶子节点的数量、子节点最少的样本树、每次分裂计算对测试集的准确率提升
(2)后剪枝-自底向上根据损失函数,计算是否剪枝