多元统计分析之判别分析

这篇博客详细介绍了判别分析在多元统计分析中的应用,以血友病携带者判断为例,阐述了如何从两总体到多总体的分类问题,并通过期望错分代价(ECM)和总的错分概率(TPM)准则来确定最优分类规则。同时,讨论了二次判别函数和线性判别函数的概念,以及在实际应用中如何估计分类性能和错误率。
摘要由CSDN通过智能技术生成

Discriminant Analysis


1.引言

分类是我们经常会遇到的任务,分类的目的是把目标对象划分到正确的类别中,或者说给它打上正确的类别标签。

2.例子:血友病携带者的判断

从血液样本中测量下述两项指标:
自身血友病因子对数值:在这里插入图片描述
类抗原对数值:
在这里插入图片描述
然后分成2组:

判别分析其实就是寻找到类似图中橙色虚线的这种 r u l e ( 规 则 ) \textcolor{red}{rule(规则)} rule()来判断目前包括将来的样本点是属于哪一类的:
在这里插入图片描述


3.分类:从两总体到多总体

3.1 Classification into One of Two Populations

符号:
(1) Π i , i = 1 , 2 \Pi_i,i=1,2 Πi,i=1,2表示两个总体;
(2) X p × 1 \bold{X}_{p\times 1} Xp×1表示随机变量,它的观测值在不同总体间是有一定程度差异的;
(3)这两个总体由 f 1 ( X ) , f 2 ( X ) f_1(\bold{X}),f_2(\bold{X}) f1(X),f2(X)描述;
(4)设样本空间为 Ω \Omega Ω, 我们想要将样本空间划分成两个不相交的子空间: Ω = R 1 ⋃ R 2 , R 1 ⋂ R 2 = ∅ \Omega=R_1 \bigcup R_2,R_1\bigcap R_2=\empty Ω=R1R2,R1R2=.
我们认为 如果 X 0 ∈ R 1 \bold{X}_0\in R_1 X0R1,那么就把它划分到 Π 1 \Pi_1 Π1中,否则就划分到 Π 2 \Pi_2 Π2中.

现在的关键问题就是: 如何决定/确定 R 1 和 R 2 R_1和R_2 R1R2?
其实就是如何找到 X \bold{X} X具有特定属性的类别.


ECM: The expected cost of misclassification
既然要做决定(决定什么样的 X \bold{X} X R 1 R_1 R1中的,什么样的 X \bold{X} X R 2 R_2 R2中的),自然就要确定一个能够判断你所做决定正确程度/代价程度 的准则。

此时期望错分代价(ECM) 就闪亮登场了:
E C M = c ( 2 ∣ 1 ) P ( 2 ∣ 1 ) p 1 + c ( 1 ∣ 2 ) P ( 1 ∣ 2 ) p 2 ECM=c(2|1)P(2|1)p_1+c(1|2)P(1|2)p_2 ECM=c(21)P(21)p1+c(12)P(12)p2

其中
P ( 2 ∣ 1 ) = P ( X ∈ R 2 ∣ Π 1 ) = ∫ R 2 f 1 ( X ) d X P(2|1)=P(\bold{X}\in R_2|\Pi_1)=\int_{R_2}f_1(\bold{X})d\bold{X} P(21)=P(XR2Π1)=R2f1(X)dX
是将实际来自 Π 1 \Pi_1 Π1类别中的变量错误的划分到 Π 2 \Pi_2 Π2中的概率;

P ( 1 ∣ 2 ) = P ( X ∈ R 1 ∣ Π 2 ) = ∫ R 1 f 2 ( X ) d X P(1|2)=P(\bold{X}\in R_1|\Pi_2)=\int_{R_1}f_2(\bold{X})d\bold{X} P(12)=P(XR1Π2)=R1f2(X)dX
是将 Π 2 \Pi_2 Π2类别中的变量划分到 Π 1 \Pi_1 Π1中的概率;

p 1 p_1 p1 X \bold{X} X属于 Π 1 \Pi_1 Π1的先验概率;
p 2 = 1 − p 1 p_2=1-p_1 p2=1p1 X \bold{X} X属于 Π 2 \Pi_2 Π2的先验概率;

c ( 1 ∣ 2 ) c(1|2) c(12) X \bold{X} X来自 Π 2 \Pi_2 Π2却被错误的划分成 Π 1 \Pi_1 Π1的代价;
c ( 2 ∣ 1 ) c(2|1) c(21) X \bold{X} X来自 Π 1 \Pi_1 Π1却被错误的划分成 Π 2 \Pi_2 Π2的代价;
显然有 c ( 1 ∣ 1 ) = c ( 2 ∣ 2 ) = 0 c(1|1)=c(2|2)=0 c(11)=c(22)=0.

下面对ECM准则进行恒等变形,便于确定 R 1 和 R 2 R_1和R_2 R1R2:

E C M = c ( 2 ∣ 1 ) p 1 ∫ R 2 f 1 ( X ) d X + c ( 1 ∣ 2 ) p 2 ∫ R 1 f 2 ( X ) d X = c ( 2 ∣ 1 ) p 1 ( 1 − ∫ R 1 f 1 ( X ) d X ) + c ( 1 ∣ 2 ) p 2 ∫ R 1 f 2 ( X ) d X = c ( 2 ∣ 1 ) p 1 + ∫ R 1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值