决策树-特征连续/离散,输出连续/离散

特征:
注意:普通的DT可以多分叉,CART是二叉树
离散:DT就正常分,CART采用二分类,对于每个类别选择一个离散值,其余的合到一组(是/否分类思想)
连续:都是采用二分,取值分成<=&>两部分

输出
离散:分类问题,GINI系数,信息增益
连续:回归问题,采用min(两部分平方误差)

CART连续特征:
比如m个样本的连续特征A有m个,从小到大排列为a1,a2,…,am,则CART算法取相邻两样本值的中位数,一共取得m-1个划分点,其中第i个划分点表示Ti表示为:Ti=ai+ai+12。
对于这m-1个点,分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点作为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为at,则小于at的值为类别1,大于at的值为类别2,这样我们就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

比如当前层采用的4.5作为划分,下一层可以采用2.3进行划分

CART离散特征:
对于CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。

RF
基于CART,按基学习器是分类还是回归来决定RF是分类还是回归
分类:
所有CART分类的投票结果作为最后结果(GINI标准)
回归:
所有CART回归的平均值(最小方差)

超参数:
随机森林需要调整的参数有:

(1) 决策树的个数

(2) 特征属性的个数

(3) 递归次数(即决策树的深度)

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值