1. 分类与回归树原理(CART)

本文介绍了CART(分类与回归树)算法,包括其原理、特征处理、CART分类树与回归树的构建、剪枝策略。CART采用基尼系数或平方误差作为特征选择标准,通过预剪枝和后剪枝策略来防止过拟合。文章还探讨了CART在类别不平衡情况下的处理机制。
摘要由CSDN通过智能技术生成

1. 简介

        分类与回归树(Classification And Regression Tree),采用二分递归分割技术,将当前样本集划分成两个子集,即其结构为二叉树,每个内部节点均只有两个分支。左分支为特征值为True的样本集合,右分支为特征取值为False的样本集合。

        CART既可以处理连续型特征,也可以处理离散型特征,基于预测值的取值类D2型不同,可划分成回归树和分类树两种。

  • 预测值为连续型变量,则CART生成回归树。
  • 预测值为离散型变量,则CART生成分类树。 

2. 特征处理

         CART既可以使用离散特征,也可以使用连续特征。

        (1)连续特征的处理

        对于连续型特征,需要进行离散化处理。假设数据集Dn个样本,关于连续特征A,按照样本取值大小,从小到大进行排列,得到样本集关于A取值序列a_{1}, a_{2},..., a_{n}。CART取两个连续取值的中点作为切分点,即第i个切分点为T_{i} = \frac{a_{i} + a_{i+1}}{2},关于连续特征A的切分点一共有n-1个。

        当选择第i个切分点T_{i}时,左分支的样本子集为关于特征A取值小于T_{i}的样本的集合,右分支的样本子集为剩余样本的集合。

        (2)离散特征的处理

        离散特征,把特征的各个取值作为切分点,例如,离散特征A^{'}t个取值a_{1},a_{2},...,a_{t},则关于该特征共有t个切分点。其中第i切分点,表示选择A{}'=a_{i}作为特征,左分支表示关于特征A{}'取值为a_{i}的样本的集合,右分支为剩余样本的集合。

3. CART分类树

        当预测值为连续值时,生成CART分类树。CART分类树采用基尼系数(Gini)进行分类特征的选择。

        基尼系数(Gini)反映的是数据集的纯度,表示的是直接从数据集中随机抽取两个样本,这两个样本属于不同类别的概率。基尼系数越小,表示数据集的纯度越高。

        (1)基尼系数计算公式

        假设数据集DK个类别,其基尼系数的计算公式如下:

Gini(D) = \sum_{k=1}^{K} p_{k}(1-p_{k})= 1 - \sum_{k=1}^{K} p_{k}^{2}

          以离散型特征为例,假设特征A,有m个取值,分别为a_{1},a_{2},...,a_{m},若选择特征A取值为a_{i},则将数据集D划分成两个子集D_{1}(左分支,特征A取值为a_{i})和D_{2}(右分支,特征A取值不等于a_{i}),则数据集选取该特征进行分类后的基尼系数如下:

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值