决策树之分类回归树(C&RT)

最新推荐文章于 2024-03-03 19:21:25 发布

caizhongda

最新推荐文章于 2024-03-03 19:21:25 发布

阅读量1.8w

点赞数

分类专栏：数据挖掘文章标签： c classification

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caizhongda/article/details/6609766

版权

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

分类回归树 Classification and RegressionTree(C&RT)

优点
（1）可自动忽略对目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量数据提供参考；
（2）在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健（robust）；
（3）估计模型通常不用花费很长的训练时间；
( 4 ) 推理过程完全依据属性变量的取值特点（与C5.0不同，C&RT的输出字段既可以是数值型，也可以是分类型）
（5）比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释，决策推理过程可以表示成 IF…THEN的形式
（6）目标是定类变量为分类树，若目标变量是定距变量，则为回归树；
（7）通过检测输入字段，通过度量各个划分产生的异质性的减小程度，找到最佳的一个划分。
（8）非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。

决策树生长的核心是确定决策树的分枝准则。
一、如何从众多的属性变量中选择一个当前的最佳分支变量；
也就是选择能使异质性下降最快的变量。
异质性的度量：GINI、TWOING、least squared deviation。
前两种主要针对分类型变量，LSD针对连续性变量。

代理划分、加权划分、先验概率

二、如何从分支变量的众多取值中找到一个当前的最佳分割点（分割阈值）。
(1) 分割阈值：
A、数值型变量——对记录的值从小到大排序，计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。
B、分类型变量——列出划分为两个子集的所有可能组合，计算每种组合下生成子节点的异质性。同样，找到使异质性减小程度最大的组合作为最佳划分点。

三、决策树停止生长的条件
满足以下一个即停止生长。
（1）节点达到完全纯性；
（2）数树的深度达到用户指定的深度；
（3）节点中样本的个数少于用户指定的个数；
（4）异质性指标下降的最大幅度小于用户指定的幅度。

剪枝：完整的决策树对训练样本特征的描述可能“过于精确”（受噪声数据的影响），缺少了一般代表性而无法较好的用对新数据做分类预测，出现”过度拟合“。
——移去对树的精度影响不大的划分。使用成本复杂度方法，即同时度量错分风险和树的复杂程度，使二者越小越好。
剪枝方式：
A、预修剪（prepruning）：停止生长策略
B、后修剪（postpruning）：在允许决策树得到最充分生长的基础上，再根据一定的规则，自下而上逐层进行剪枝。
预测：
回归树——预测值为叶节点目标变量的加权均值
分类树——某叶节点预测的分类值应是造成错判损失最小的分类值。

四、模型评价：
减少在冒险因素或损失因素方面的不确定性。
不仅包括不同模型的比较，而且还要对模型产生结果的商业价值进行比较。
模型评价的角度
-风险（risk）
-收益（gain）
-利润（profits）

Type（类型节点）设置：

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
决策树之分类回归树(C&RT)

分类回归树 Classification and RegressionTree(C&RT) 优点（1）可自动忽略对目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量数据提供参考；（2）在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健（robust）；（
复制链接

扫一扫

专栏目录

caizhongda CSDN认证博客专家 CSDN认证企业博客

码龄15年

82: 原创

24万+: 周排名

144万+: 总排名

17万+: 访问

: 等级

2166: 积分

50: 粉丝

10: 获赞

8: 评论

34: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 5篇
C/C++ 7篇
测试 1篇
笔记 5篇
推荐系统 11篇
数据分析 2篇
Mahout 11篇
Hadoop 19篇
JAVA x
JAVA 线程
游戏分析 3篇
BI 2篇
Python 1篇
Ejb 2篇
IDE 8篇
Excellent Framework 16篇
Java 24篇
Java Web 3篇
Arithmetic 2篇
PHP专题 1篇
UI 6篇
数据库 3篇
Search Engine 3篇
Distributed(分布式) 2篇
Ext js 1篇
面试 1篇
OS/Ubuntu 2篇
Storm 2篇

最新评论

分布式计算开源框架Hadoop介绍
Deep Learning小舟: 明白了，
决策树之分类回归树(C&RT)
THN_6: 您好！很荣幸拜读您的文章，想针对文中的一个问题请教一下：二、（1）A小段中“计算每个值作为临界点产生的子节点的异质性统计量”这句话是什么意思？能结合具体的例子讲解一下吗？
2.3 推荐器的评估
AndrewGhost: 感谢翻译了《Mahout in action》Recommender的第二章
SQLyog Enterprise 破解
QQ371496669: [code=html] 你怎么知道删除这个项就可以了。求教你的破解思路 [/code]
SQLyog Enterprise 破解
QQ371496669: 你怎么知道删除这个项就可以了。求教你的破解思路

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。