SPSS(十七)SPSS之判别分析进阶(图文+数据集)
为什么会有这些新模型的出现?
- 树模型结构
- 神经网络模型
传统模型的局限
- 任何统计模型都是对现实世界复杂联系的简化
- 统计理论假设对任何一个随机现象的估计,都可以用下列的通式来表达:
- Y=f(x, θ)+ε
- f(x, θ)表示自变量对因变量的影响方式(一般规律),其中θ表示相应的函数中的未知参数(共性特征)
- ε为对每个个体而言的特殊特征,代表随机变异(个性特征)
- 统计模型的任务就是尽量精确的估计出f(x, θ)中f()的具体形式,以及θ的相应参数值;根据专业知识和样本信息建立模型假设,然后利用假设检验进行验证,并加以相应的修改;原则:简捷为美
- 当f()比较简单时,这一分析思路效率较高
- 但是,当自变量和因变量间的联系为非常复杂的非线性函数,甚至于无法给出显式表达时,这上分析思路就变得非常困难;作为模型的推广,如果自/因变量间的关联为曲线联系,则引入自变量的高次项/交互项加以拟和
我们来看一下实例(饮酒量、年龄对早产的影响)
我么使用传统的Logistic回归模型,得到结果如下
分析结果显示:年龄和饮酒均对新生儿早产有影响,年龄越大、饮酒量越高,早产的可能性越大
模型的总预测正确率为90%以上,但是,这个模型对数据的解释充分吗?
显然是不充分的,没有考虑到交互项的影响
假如我们使用树模型结果会怎么样呢?
由于分别按照自变量取值依次划分样本,如果采用树形图,则可以表示如右:
- 树图更加直观、方便
- 结点划分的原则就是使终末结内因变量的分布尽可能一致
- 所有终末结的样本量之和等于根结样本量
树模型结构
- 树模型的实质就是根据分析目的,将总研究人群通过某些特征(自变量取值)分成数个相对同质的亚人群。
每个亚人群内部的因变量取值高度一致(同质性高)
而不同亚人群间的因变量取值差异较大(相应的变异尽量落在不同亚人群间)
- 从方法本质上讲,树模型自然就能处理自/因变量间的复杂联系,适应性更强
树模型常用术语
- 结(node):一个样本群体在树模型中表示为图中的一个节点,被称为结
- 根(root):树的起始点(包括所有的观察值)
- 叶(leaf):树的终止点,也被称为终末节
- 分杈(split):建立新枝的原则(依据怎样的原则将样本分为不同的亚人群)
- 种树与剪枝
常见的树模型算法
- CHAID算法:最为基本和简单,易于理解,但只是能用于分类因变量和自变量间关系的分析
- 穷举CHAID:SPSS对CHAID算法的一些微改进
- C&RT:分类树与回归树,是最为常用的树模型算法,可用于任意类型的资料,通常所说的树模型就是指的该算法
- C 5.0:由C4.5发展而来,更倾向于计算机学
- QUEST:一种较为复杂的统计模型算法,可提供假设检验的结果,但可实现的软件不多
树模型的优劣势
树模型的优势
- 树模型会在所有的自变量中按照贡献的大小依次挑出自变量进入分析,因此可以自动处理大量的自变量
- 许多树模型算法均为非参数方法,因此没有太多的适用条件限制,应用范围更广,也更适合于对对各种复杂的联系进行分析