分类树(回归树)的优劣势

优势:


1、树生成的过程是透明的,方便分析;
2、不需要对变量进行转换(变量的任何单调转换都会得到相同的树);
3、变量子集的选择是自动的,因为它是分割选择的一部分;
4、树在本质上对异常值也是稳健的,因为分割的选择取决于数值的排序,而不是这些数值的绝对大小;
5、可以处理缺失的数据,而不需要估算数值或删除缺失的记录。

劣势:

1、可能会忽视变量之间的线性关系(因为树是非线性和非参的);

2、对数据的变化很敏感,即使是轻微的变化也会导致非常不同的拆分;
3、在预测器空间的横向和纵向分割能充分划分‘类别的情况下,分类树是有用的,但通过对角线或其他方法实现分类时,分类树的性能可能会低于判别分析等方法;
      【针对这个劣势,提高性能的一个方法是创建新的预测变量,这些预测因子来自于现有的预测因子,它们可以捕捉预测因子之间的假设关系(类似于回归模型中的相互作用);随机森林也可以缓解这个劣势。】
4、它们需要一个大的数据集,以便构建一个好的分类器;
5、从计算的角度来看,树的生长成本相对较高,在计算每个变量的所有可能的分叉时需要进行多次排序;
6、避免过度拟合的过程中,如交叉验证或使用验证集修剪数据,也会进一步增加计算时间;
7、树会 "偏爱 "有许多潜在分裂点的预测变量。
       【一个简单的解决方案是将多个类别合并成一个较小的集合,并将具有许多数值的数字预测器归类。一些特殊的算法通过使用不同的分割标准来避免这个问题,R软件包party中的条件推理树和QUEST分类树。】

 

参考:

《Data Mining for Business Analytics for Python》Chapter9
 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值