CART算法

前言

本文只涉及分类树,而不涉及回归树,本文大部分内容均来自于李航博士的《统计学习方法》,在此基础上增加一些个人理解

正文

分类树假设决策树是一棵二叉树
分类树其实与决策树差不多,不同之处在于特征选择以及树的剪枝

决策树利用信息增益选择最优特征,分类树利用基尼指数选择最优特征

决策树的剪枝是在所生成的决策树递归地进行剪枝,分类树利用 α α 的不同取值范围对分类树进行剪枝生成一系列子树,从子树中选取最优解

特征选择

分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点

最优二值切分点

假设一个训练数据集为 D D ,特征为 A A ,最优二值切分点就是找到一个特征值 Ai A i ,使得当 A=Ai A = A i 时,数据集 D D 能够很好的归类

基尼指数

分类问题中,假设有 K K 个类,样本点属于第 k k 类的概率为 pk p k 则概率分布的基尼指数定义为

Gini(p)=k=1kpk(1pk)=1k=1kp2k G i n i ( p ) = ∑ k = 1 k p k ( 1 − p k ) = 1 − ∑ k = 1 k p k 2

注:
k=1kpk=1 ∑ k = 1 k p k = 1

对于给定的样本集合 D D ,其基尼指数为
Gini(D)=1k=1k(|ck||D|

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值