决策树原理及实现（二）--CART算法及剪枝

最新推荐文章于 2021-01-10 00:19:11 发布

zealscott

最新推荐文章于 2021-01-10 00:19:11 发布

阅读量1.8k

点赞数

分类专栏： MachineLearning 文章标签：决策树 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_scott/article/details/79970487

版权

本节介绍决策树中使用最多的CART方法以及剪枝，主要参考资料。

在上一节我们将了ID3算法，和ID3算法的改进版C4.5算法。对于C4.5算法，我们也提到了它的不足，特别是不能处理连续数据等。而目前最常见的CART既可以做回归，也可以做分类，在skleran包中的决策树也采用此种方法。

特征选择方法

前面无论是ID3或者C4.5算法，我们都是使用的“熵”这一度量单位来选取特征。但计算熵需要大量的对数运算，有没有其他的特征选取方法呢？答案是肯定的，这里使用了统计学中的基尼系数，其基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。

假设在分类问题中有 $K$ 个类别，第 $k$ 个类别的概率为 $p_k$ ，则基尼系数表示为：

G i n i (p) = \sum k = 1 K \sum j \neq k K p k p j = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$Gini(p) =\sum\limits_{k=1}^K\sum\limits_{j\ne k}^Kp_kp_j= \sum\limits_{k=1}^Kp_k(1-p_k) = 1 - \sum\limits_{k=1}^Kp_k^2$

从直观上，我们可以认为基尼系数是某种属性分类错误的概率度量。

对于给定的样本 $D$ ,假设有 $K$ 个类别, 第 $k$ 个类别的数量为 $C_k$ ,则样本 $D$ 的基尼系数表达式为：

G i n i (D) = 1 - \sum k = 1 K (

最低0.47元/天解锁文章

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
决策树原理及实现（二）--CART算法及剪枝

本节介绍决策树中使用最多的CART方法以及剪枝，主要参考资料。在上一节我们将了ID3算法，和ID3算法的改进版C4.5算法。对于C4.5算法，我们也提到了它的不足，特别是不能处理连续数据等。而目前最常见的CART既可以做回归，也可以做分类，在skleran包中的决策树也采用此种方法。特征选择方法前面无论是ID3或者C4.5算法，我们都是使用的“熵”这一度量单位来选取特征。但计算...
复制链接

扫一扫

专栏目录

zealscott CSDN认证博客专家 CSDN认证企业博客

码龄7年

196: 原创

3万+: 周排名

156万+: 总排名

68万+: 访问

: 等级

6916: 积分

314: 粉丝

375: 获赞

118: 评论

1704: 收藏

私信

关注

热门文章

分类专栏

最新评论

矩阵求导法则与性质
Jerry fk: 我也在纠结这玩意儿，我刚看了定义，他那个刚好写反了
hexo下LaTeX无法显示的解决方案
风翼飞镰: 这是关键啊:CDN地址！
python plot hist 密度图概率和不为1
尚未填写: 有用，感谢！想要绘制多组数据的概率图的话，只需把不同的weights添加到一个列表即可，比如： x_value = [train_points, test_points] train_weights = np.ones_like(train_points)/float(len(train_points)) test_weights = np.ones_like(test_points)/float(len(test_points)) weights = [train_weights, test_weights] plt.hist(x_value, bins=10, histtype="bar", alpha=0.5, label=["training set", "test set"], weights=weights) plt.legend() plt.show()
根据坐标点位置计算方位角（python实现）
Auto_yaoyao: 请问你计算的方位角是地面的？是当前时刻还是下一时刻
根据坐标点位置计算方位角（python实现）
Auto_yaoyao: 我试了一下，出来的航向跟原来的不一样

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。