1.决策树的理解:
模型的不确定性降低的越快越好
主要是ID3算法,C4.5算法和CART算法,其中ID3算法的评价指标是信息增益,C4.5算法的评价指标是信息增益率,CART算法的评价指标是基尼系数。
CART是一棵二叉树,对分类和回归都适用,对于回归树用平方误差最小化,对分类树用基尼指数进行特征选择。分类时和ID3、C4.5类似;回归时会遍历变量j, 对固定的切分变量扫描切分点s,计算MSE,选择使得MSE最小的(j,s)对。
CART之所以使用Gini指数是因为熵需要计算log,速度较慢
2.信息增益与信息增益率
经验熵与经验条件熵之差即为信息增益
缺点对那些特征的取值比较多的特征有所偏好
所以加入特征A 的纯度,如果A只含有少量的取值的话,那么A的纯度就比较高
3.决策树出现过拟合的原因及其解决办法?
对训练数据预测效果很好,但是测试数据预测效果较差的现象称为过拟合。
原因:
超参数剪枝、噪声、维度
解决:
K折、正则化、剪枝
4.决策树与逻辑回归的区别?
对于拥有缺失值的数据,决策树可以应对,而逻辑回归需要挖掘人员预先对缺失数据进行处理;
逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归;(决策树由于采用分割的方法,所以能够深入数据内部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的关系就被