IBM SPSS Modeler算法系列-----决策树CHAID算法

本文深入浅出地介绍了IBM SPSS Modeler中的CHAID算法,包括其起源、卡方检验原理以及如何应用于决策树建模。通过实例解释了CHAID如何处理数值型和分类变量,以及如何确定变量的分割点。CHAID算法适用于目标变量和输入变量均可为分类或数值型的情况,并强调了样本数据量和卡方检验在算法中的重要性。
摘要由CSDN通过智能技术生成

在之前的微信文章中,有一篇名为《SPSS Modeler决策树算法比较》的文章,粗略介绍了SPSS Modeler中各种决策树算法(包括C5.0、CHAID、QUEST、C&R和决策列表)的区别,这可以帮助大家在选用算法的时候有一些参考。

谈到算法,大家都觉得挺神秘的,对没有学过统计学相关知识的朋友来说,太多的数学公式没法理解,很多书籍介绍的也比较表象,看得云里雾里的,那么今天,我们将尝试给大家介绍SPSS Modeler里面所涵盖的一些算法内容,既不那么地表象,也不那么地难以理解。

我们首先从决策树算法开始,先介绍CHAID算法, 它是由Kass在1975年提出的,全称是Chi-squaredAutomatic Interaction Detector,可以翻译为卡方自动交叉检验,从名称可以看出,它的核心是卡方检验,那么我们先来了解下什么是卡方检验。

卡方检验只针对分类变量,它是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,偏离程度越大;卡方值越小,偏差越小,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

在CHAID算法中,我们可以结合下面这个例子来理解卡方检验上面这段话。

这个例子中,我们要分析的目标是女性考虑结婚与不结婚的问题(0表示不结婚,1表示结婚),那么影响结婚不结婚的因素有很多,比如男方有没有房子,男方收入水平, 幸福指数等等。那么我们先来看看到底是否有房对是否结婚是否有影响。

首先,我们对数据做下统计:

SPSS

我们先假设是否有房与结婚没有关系,那么四个格子应该是括号里的数(理论值),这和实际值(括号外的数)是有差距

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值