树模型之三种常见的决策树：CART，…

最新推荐文章于 2025-03-13 13:37:10 发布

sjpljr

最新推荐文章于 2025-03-13 13:37:10 发布

阅读量2.3w

点赞数 3

分类专栏：统计分析

本文链接：https://blog.csdn.net/sjpljr/article/details/70169159

版权

统计分析专栏收录该内容

63 篇文章

订阅专栏

树模型（又称决策树或者树结构模型）：基本思想和方差分析中的变异分解极为相似。

目的（基本原则）：将总研究样本通过某些牲（自变量取值）分成数个相对同质的子样本。每一子样本因变量的取值高度一致，相应的变异/杂质尽量落在不同子样本间。所有树模型的算法都遵循这一基本原则。

不同树模型差异：差异在于对变异/杂质的定义不同。比如 P值、方差、熵、Gini指数（基尼指数）、Deviance等作为测量指标。

树模型分类：根据预测的因变量类型，树结构模型可以分为分类树、回归树两大类。

常用算法：

CHAID（卡方自交互侦测决策树）—Chi-squared Automatic Interaction Detector
CRT（分类回归树）—Classification Regression Tree；

C5.0以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。面对数据遗漏和输入字段很多的问题时非常稳健。

QUEST：Quick、Unbiased、Efficient Statistical Tree的缩写。

决策树需要计算结点的纯度来选择最具显著性的切分（split）。通常，CART以Gini，C5以信息增益（熵），CHAID以卡方。虽然存在这样的差别，但他们树形状的不同更为重要一些。

C5起源于计算科学领域，讲究小样本上的重复测试比较（cross validation），进一步地，C5会进行规则（Rule Set）的概化以自动产生更为简洁的规则表达形式。牺牲一些精度来换取更好记的规则，对于业务人员来说无疑是值得的。

分类决策树CHAID&CRT(转帖沈浩老师)

————————————————————————————

CRT内容：

当因变量是分类变量时，即为分类树；当因变量为连续变量则为回归树。

目的：将总研究人群某些特征（ 自变量取值）分成数个相对同质的亚人群。每一亚人群内部 因变量的取值高度一致，相应的变异/杂质尽量落在不同亚人群间。就是按照预测误差最小化原理，依次按照二分法将总样本划分为多个子样本的过程。

路径：spss statistics——分析——分类——树，打开CRT功能节点。

转至沈浩老师博客： http://shenhaolaoshi.blog.sohu.com/144586147.html
点击可查看详细示例。

假设我们有一个移动业务数据，包含有客户的性别、年龄、语音费用、数据费用、客户等级、支付方式和促销套餐变量。我们现在期望能够得到针对不同的促销套餐来分析“客户画像”，这样有利于针对性的促销！也就是不同套餐客户特征描述！
因变量是促销套餐，其它是预测变量或自变量！

我们看到，首先要求我们定义变量的测量等级并定义好变量变标和值标！因为，CHAID和CRT具有智能特性，也就是自交互检验和自回归能力，所以对变量测量尺度要求严格！
为什么说变量测量等级重要呢？例如，我们有个变量叫学历（1-初中、2-高中、3-大专、4-本科、5-硕士以上），如果我们设定为定序变量，则决策树可以自动组合分类，但无论如何都是顺序组合，也就是说可能（1-初中、2-高中、3-大专）为一类，（4-本科、5-硕士以上）为一类，但绝对不会把1和5合并一类；如果我们定义为名义变量，则可以任意学历组合为某类了！

基本原理：基于目标变量（独立变量）自我分层的树状结构，根结点是因变量，预测变量根据卡方显著性程度不断自动生成父节点和子节点，卡方显著性越高，越先成为预测根结点的变量，程序自动归并预测变量的不同类，使之成为卡方显著性。程序根据预先设定的树状水平数停止。最后每一个叶结点就是一个细分市场。当预测变量较多且都是分类变量时，CHAID分类最适宜。
预测变量大部分都是人口统计资料，使研究者很快就可以找出不同细分市场特征。传统的交互分析对多维交叉表和归并类是一项繁重的工作。
首先，我们确定因变量后，放入其它自变量。接下来，我们要选择CHAID的验证和条件参数！一般来讲：我们主要设定父节点和子节点的数量，以及规定树状结构的水平数，如何生长！分类树将根据设定参数决定树的增长和停止！通常，我们考察总的样本量大小，父节点是子节点的两倍，当然如果设定的太小，树会非常茂盛，得到很多非常小的细分市场，可能没有实际营销意义！树的水平数也是同样道理！

其它还有很多参数可以设定，比如分割样本，错误分类成本，利润等，分类决策树可以直接输出结果和SPSS语法或SQL语法规则！（略）
因为树比较大，看不清楚，我们需要在树查看器中分析！

从查看器中我们可以看到，客户等级最显著，也最重要，首先跑上来！针对低端客户，账单支付方式重要，对于预付话费的人来讲，数据业务小于50.73的主要是Y类套餐！这样我们就可以看到这个类别的特征了！
最后的分类预测正确分类84.4%。

下面是生成的SQL语法规则：
UPDATE
SET nod_001 = 4, pre_001 = 5, prb_001 = 0.974026
WHERE ((客户等级 IS NULL) OR 客户等级 <> 2 AND 客户等级 <> 3) AND ((数据业务 IS NULL) OR (数据业务 <= 38.754));

我们可以把语法规则嵌入在分析系统中就可以实现商业智能和营销了！
当然，CRT基本方法和解读方式都是一样的！

总结：CHAID和CRT基本操作过程
指定CHAID或CRT分类树
规定目标变量和预测变量
设定预测变量的测量等级，非数量型变量也可预先合并分类。
规定树状结构的水平数。
指定节点包含的最小样本数量。

CHAID和CART是最有名的分类树方法，主要用于预测和分类。在市场研究中经常用于市场细分和客户促销研究，属于监督类分析技术。其中，树根节点是独立变量-因变量，例如：使用水平、购买倾向、用户或非用户、客户类型、套餐类别、细分类别等。子节点基于独立变量和其他分类变量（父节点），按照卡方显著性不断划分或组合为树状结构。预测变量一般也是非数量型的分类变量。
CHAID最常用，但独立变量只能是分类变量，也就是离散性的，CRT可以处理数量型变量，有时候二者结合使用。CHAID和CRT都可以处理非数量型和定序性变量。

分类树方法产生真实的细分类别，这种类是基于一个独立变量得到的一种规则和细分市场。也就是说，每一个树叶都是一个细分市场。
下面我们通过一个案例来操作SPSS软件的分类决策树模块

CART与CHAID，一个是二叉树，一个是多叉树；CART在每一个分支都选择最好的二元切分，因此一个变量（field）很可能在不同的树深处被多次使用；CHAID则一次对一个变量切分出多个统计显著的分支，会更快的生长出高预测能力的树枝，但同时在深度子结点的支持度相比CART迅速降低，更快地逼近一棵臃肿而不稳定的树。

为了避免过度拟合（over fit）而成为不稳定的树，叶结点需要裁剪（prune）。尽管CART提供了自动搜索潜在可能的树分支并根据测试集裁剪回来的策略，但事实上并不足以依赖；统计意义不是决策规则的决定因素，商业理解结合手工裁剪（custom split）可能是更好的选择。另外，少于100条数据的叶结点很可能是不稳定的，你将从测试集中发现这一点。