CART分类回归树

本文介绍了CART(Classification and Regression Tree)算法,包括基尼指数、最小二乘回归树的概念。CART是一种二叉决策树,用于分类和回归任务。生成算法主要涉及最小化基尼指数或平方误差,而剪枝则通过验证数据集进行,以减少过拟合。
摘要由CSDN通过智能技术生成

这一篇主要是CART,有几个重点的词语先写下来,重点哦:基尼指数(Gini index)、最小二乘回归树(least squares regression tree)
CART:classification and regression tree。分类回归树。
简单的说呢,CART就是个二叉树(广义的决策树并不一定就是二叉树,可能好几叉。。。哈哈),所以内部节点的取值就是“是”“否”的了。
直接介绍算法吧,CART的基本原理和广义的决策树是一样的,就相当于二叉树都有普通树的特征。

下面直接介绍回归树的算法:
1. 回归树的生成:基于训练数据集生成决策树,尽量大点。
2. 回归树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。
完了,,,很简单的。哈哈

下面介绍一下详细的算法,重点还是大多参考了统计学习方法的:
简单介绍一下理论:给定数据集这里写图片描述
假设已经将输入空间划分为M个单元R_1、R_2、…R_M,并且每个单元都有一个固定的输出值C_m,则回归树的模型为:
这里写图片描述

训练数据集的预测误差为:平方误差这里写图片描述
平方误差是用来球每个单元上的最优输出值

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
CART(Classification And Regression Tree)是一种决策算法,可用于分类回归分析。CART分类回归算法是由Breiman等人在1984年提出的,它是一种基于结构对数据进行分类和预测的方法,可以用于分类回归问题。 CART分类回归算法的主要思想是通过将数据集分成多个小的子集,并且每个子集内部的数据具有较高的相似性,不同子集之间的数据具有较大的差异性。这样,就可以通过对每个子集进行分析来对整个数据集进行分析。在决策中,每个节点表示一个特征变量,每个分支代表该特征变量的不同取值,每个叶子节点代表一个类别或一个数值。 下面是使用Python实现CART分类回归分析的步骤: 步骤1:导入所需的库 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.tree import export_graphviz from sklearn.externals.six import StringIO from IPython.display import Image import pydotplus ``` 步骤2:准备数据 ```python data = pd.read_csv("data.csv") X = data.iloc[:, :-1] y = data.iloc[:, -1] ``` 步骤3:训练模型 ```python model = DecisionTreeClassifier() model.fit(X, y) ``` 步骤4:生成决策图形 ```python dot_data = StringIO() export_graphviz(model, out_file=dot_data, filled=True, rounded=True, special_characters=True) graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) Image(graph.create_png()) ``` 以上就是使用Python实现CART分类回归分析的基本步骤。其中,第一步是导入所需库,第二步是准备数据,第三步是训练模型,第四步是生成决策图形。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值