目录
引言
1.判别分析的目标
(1)目标1(预测方面):分类(或分配)
在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应属的组别。
(2)目标2(描述方面):分离
就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。
2.判别分析的例子
(1)有偿付能力与无偿付能力的财产责任保险公司
测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签订的保费金额
(2)非胃溃疡病组(胃功能紊乱者)与控制组(“正常”者)
测量变量:焦虑,依赖感,罪恶感,完美主义的量度
(3)两种野草
测量变量:萼片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径
(4)新产品的速购者与迟购者
测量变量:教育,收入,家庭大小,过去更换品牌的次数
(5)良好信用与不良信用风险
测量变量:收入,年龄,信用卡数目,家庭规模
3.本章讨论的判别分析
- 每一组中所有样品的p维指标值构成了该组的一个p元总体分布
- 我们对新样品x进行的判别归类将在很大程度上依赖于各组的总体分布或其分布特征
- 距离判别和贝叶斯判别只能用于分类
- 费希尔判别既可用于分类,也可用于分离,且更多地用于后者
- 这些都是基于判别变量为定量变量的
距离判别
前言
距离判别的基本思想是:样品和哪个总体距离最近,就判它属哪个总体。距离判别也成为直观判别法。
引例
直观地看,与设备A的绝对距离近些,按距离最近的原则是否应把产品判断为设备A生产的?
考虑一种相对于分散性的距离:记与A,B的相对平方距离为
因为,按这种距离准则应判为设备B产生的。
设备B生产的产品质量较分散,出现为78的可能性仍较大;而设备A生产的产品产品质量较集中,出现为78的可能性较小。因此,判为设备B的产品更合理。
这种相对于分散性的距离就是马氏距离。
一、两组距离判别
设组的均值分别为,协差阵分别为,x是一个新样品(p维),现欲判断它来自哪一组。
1.时的判别
(1)判别规则
其中,。令,则上述判别规则可化简为:
称为两组距离判别的(线性)判别函数,称