说明:非原创,借鉴网上多方材料整理,其中包括CSDN博主路易三十六,TOMOCAT及百度资源整合做的一份学习笔记,与大家共享。
一、定义
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
二、判别分析的一般形式
y=a1x1+a2x2+……+anxn(a1为系数,Xn为变量)。事先非常明确共有几个类别,目的是从已知样本中训练出判别函数
三、前提假设(有点类似多重回归分析)
1.各自变量为连续性或有序分类变量
2.自变量和因变量符合线性假设
3.各组的协方差矩阵相等,类似与方差分析中的方差齐
4.变量间独立,无共线性
注:违反条件影响也不大,主要看预测准不准,准的话违反也无所谓
四、用途
1.对客户进行信用预测;2.寻找潜在客户等
五、判别分析常用判别方法
1.最大似然法
适用于自变量均为分类变量的情况,算出这些情况的概率组合,基于这些组合大小进行判别
2.距离判别
对新样品求出他们离各个类别重心的距离远近,适用于自变量均为连续变量的情况,对变量分布类型无严格要求
3.Fisher判别法
与主成份分析有关,对分布、方差等都没有什么限制,按照类别与类别差异最大原则提取公因子然后使用公因子判别
4.Bayes判别
强项是进行多类判别,要求总体呈多元正态分布。利用贝叶斯公式,概率分布逻辑衍生出来一个判别方法,计算这个样本落入这个类别的概率,概率最大就被归为一类
在spss中一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,但通常在判别分析前我们已经做了相关的预分析,所以不推荐使用逐步判别分析(采用步进法让自变量逐个尝试进入函数式,如果进入到函数式中的自变量符合条件,则保留在函数式中,否则,将从函数式中剔除)。
六、聚类分析与判别分析的区别与联系
都是研究分类的。聚类分析,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉,当然要进行聚类分析,才能考虑判别分析问题。
七、判别分析得到的判别函数效果评判方法
1.自身验证(拿训练数据直接预测验证,但是对预测样本预测好不代表对新样本预测好)
2.外部数据验证(收集新的数据来验证,这是最客观最有效的,但是麻烦而且两次收集的数据不一定是同质的)
3.样本二分法(一般划分2/3为训练集,1/3为验证集,但是浪费了1/3的样本)
4.交互验证(Cross-Validation)----刀切法(10分