决策树 Decision Tree

决策树是一个 有监督的分类算法,在每次分裂中都 找到最容易区分一个集合和另一个集合的特征
在寻找最优特征时, DT算法保证了局部最优,但整体上看不一定是全局最优

一、目标 target
因为决策树是一个有监督的算法,所以样本已经有一个变量用来表征这个样本的target,可能是正例/反例,也可以是多个类别(比如高/中/低)

二、模型输入 model input
在实际应用中,无论是离散特征还是连续特征,其实都可以用DT模型,但是处理方法略有不同
离散特征:
无序类别特征
有序类别特征, 通常会用数字代替特征,有序体现在顺序上
连续特征:连续变量
样本有限的时候,其实采样数据在特征上的取值仍然是离散的(数值非常多,可以理解为连续变量),如果考虑每个数值作为一个类别进行分析,计算量过大。

因此,可以根据这个连续变量的分布,选择几个数值对数据进行分类,有两种方法推荐:
(1)根据变量的分布,选取几个位置对数据分类。 比如根据25% 和75%的值,将连续特征划分为低/中/高等,数字可以为1/2/3
优点:计算简单
缺点:分隔位置也许不是最佳的分隔位置

(2)对特征取值进行排序,选择两个特征值的中点(选择特征值也可以)作为可能的分裂点,分隔数据,通过某些指标(比如信息增益)的比较选取最优的分裂点。
如果是分成两个特征,只需要选取一个最佳分裂点即可,如果分成多个特征,可以用嵌套循环的方式(先确定一个最佳分裂点,在每个分组中再选择最佳分裂点)
优点:分割位置最优
缺点:计算复杂

注意:
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值