SPSS(十六)SPSS之判别分析(图文+数据集)
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
聚类分析与判别分析的区别与联系
都是研究分类的,在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉,当然要进行聚类分析,才能考虑判别分析问题。
判别分析概述
判别分析的一般形式:y=a1x1+a2x2+……+anxn
非常明确共有几个类别
目的是从已知样本中训练出判别函数
用途
对客户进行信用预测
寻找潜在客户
判别分析常用判别方法
- 最大似然法
用于自变量均为分类变量的情况
计算出这些情况的概率组合,基于这些组合大小进行判别
- 距离判别
对新样品求出他们离各个类别重心的距离远近
适用于自变量均为连续变量的情况,对变量分布类型无严格要求
- Fisher判别法
与主成份分析有关
对分布、方差等都没有什么限制
按照类别与类别差异最大原则提取公因子然后使用公因子判别
- Bayes判别
计算该样品落入各个子域的概率
强项是进行多类判别
要求总体呈多元正态分布
利用贝叶斯公式,概率分布逻辑衍生出来一个判别方法,计算这个样本落入这个类别的概率,概率最大就被归为一类
判别分析适用条件(有点类似多重回归分析)
- 各自变量为连续性或有序分类变量
- 样本来自一个多元正态总体,该前提几乎做不到
- 各组的协方差矩阵相等,类似与方差分析中的方差齐
- 变量间独立,无共线性
- 违反条件影响也不大,主要看预测准不准,准的话违反也无所谓
判别函数效果的验证方法
利用判别分析得出判别函数,那我们怎么其效果好不好?
- 自身验证(拿训练数据直接预测验证,但是对预测样本预测好不代表对新样本预测好)
- 外部数据验证(收集新的数据来验证,这是最客观最有效的,但是麻烦而且两次收集的数据不一定是