CART分类与回归

最新推荐文章于 2019-07-18 18:13:42 发布

sir_TI

最新推荐文章于 2019-07-18 18:13:42 发布

阅读量1.8k

点赞数

分类专栏： Deep learning 文章标签：决策树 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sir_TI/article/details/89434550

版权

本文介绍了CART（Classification and Regression Tree）算法，包括其分类树和回归树的构建原理。文章通过信息增益、基尼系数、特征处理和剪枝策略，详细阐述了CART在处理连续和离散特征时的改进，并探讨了CART在回归问题上的应用。同时，文中提供了一个面试题，展示了如何使用基尼系数计算信息增益，以确定最佳划分特征。

摘要由CSDN通过智能技术生成

CART分类树与回归树

前记

本篇文章不会大幅度去介绍CART是怎么来的，以及CART与其他不同的地方，但是会着重的讲解在面试过程中遇到的问题，知识点的话会简单点的温习一下,本文是按照博主学习CART的过程俩编写，本文假设读者已经知道了ID3已经C4.5算法，若写的有问题，请指出，谢谢.

1. 为什么会有`CART`

我们已经知道在ID3中，我们是使用信息增益去作为分类的基准的，在现场面试中，面试官曾要求我们计算信息增益，以及选择分类的基准.首先是具备以下知识：

1.1 面试题1：信息增益（information gain）

首先，我们需要熟悉信息论中熵的概念。熵度量了事物的不确定性，越不确定的事物，它的熵就越大。具体的，随机变量X的熵的表达式如下：

$H(x)=-\sum _{i=1}^{n}p_i\log{p_i}$

熟悉了一个变量X的熵，很容易推广到多个个变量的联合熵，这里给出两个变量X和Y的联合熵表达式：

$H(X,Y)=-\sum _{i=1}^{n}P(x_i,y_i)\log(P(x_i,y_i))$

有了联合熵，又可以得到条件熵的表达式H(X|Y)，条件熵类似于条件概率,它度量了我们的X在知道Y以后剩下的不确定性。表达式如下：

$H(Y|X)=\sum_{i=1}^n P_iH(Y|X=X_i)$

有了上面的推导，我们下面给出信息增益的概念以及计算公式：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，其定义如下：特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H（D）与特征A给定条件D下的经验条件熵H（D|A）之差，即

$g (D, A) = H (D) - H (D ∣ A)$

有了上面的基础，那么可以开始本次的面试题了，给定特征，计算信息增益以及确定分类特征。

下面的示例是以李航博士的统计学习方法为例：
在这里插入图片描述

比如存在上面的数据集D，我们分析初始时，哪一个作为分类节点较为合适,分别以 $A_1,A_2,A_3,A_4$ 表示年龄，有工作，有自己的房子和信贷情况，那么我们开始来计算每个特征的信息增益：

（1）计算D的熵：

$H(D)=-\frac{9}{15}\log_2\frac{9}{15}-\frac{6}{15}\log_2\frac{6}{15}=0.971$

(2)对于特征 $A_1$ 的信息增益，因为分为三类（青年：5( $D_1$ )，中年：5( $D_2$ )，老年：5( $D_3$ )），那么按照公式，我们首先得到总体的计算公式以及变换计算如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。