Discriminant Analysis
1.引言
分类是我们经常会遇到的任务,分类的目的是把目标对象划分到正确的类别中,或者说给它打上正确的类别标签。
2.例子:血友病携带者的判断
从血液样本中测量下述两项指标:
自身血友病因子对数值:
类抗原对数值:
然后分成2组:
判别分析其实就是寻找到类似图中橙色虚线的这种 r u l e ( 规 则 ) \textcolor{red}{rule(规则)} rule(规则)来判断目前包括将来的样本点是属于哪一类的:
3.分类:从两总体到多总体
3.1 Classification into One of Two Populations
符号:
(1) Π i , i = 1 , 2 \Pi_i,i=1,2 Πi,i=1,2表示两个总体;
(2) X p × 1 \bold{X}_{p\times 1} Xp×1表示随机变量,它的观测值在不同总体间是有一定程度差异的;
(3)这两个总体由 f 1 ( X ) , f 2 ( X ) f_1(\bold{X}),f_2(\bold{X}) f1(X),f2(X)描述;
(4)设样本空间为 Ω \Omega Ω, 我们想要将样本空间划分成两个不相交的子空间: Ω = R 1 ⋃ R 2 , R 1 ⋂ R 2 = ∅ \Omega=R_1 \bigcup R_2,R_1\bigcap R_2=\empty Ω=R1⋃R2,R1⋂R2=∅.
我们认为 如果 X 0 ∈ R 1 \bold{X}_0\in R_1 X0∈R1,那么就把它划分到 Π 1 \Pi_1 Π1中,否则就划分到 Π 2 \Pi_2 Π2中.
现在的关键问题就是: 如何决定/确定 R 1 和 R 2 R_1和R_2 R1和R2?
其实就是如何找到 X \bold{X} X具有特定属性的类别.
ECM: The expected cost of misclassification
既然要做决定(决定什么样的 X \bold{X} X是 R 1 R_1 R1中的,什么样的 X \bold{X} X是 R 2 R_2 R2中的),自然就要确定一个能够判断你所做决定正确程度/代价程度 的准则。
此时期望错分代价(ECM) 就闪亮登场了:
E C M = c ( 2 ∣ 1 ) P ( 2 ∣ 1 ) p 1 + c ( 1 ∣ 2 ) P ( 1 ∣ 2 ) p 2 ECM=c(2|1)P(2|1)p_1+c(1|2)P(1|2)p_2 ECM=c(2∣1)P(2∣1)p1+c(1∣2)P(1∣2)p2
其中
P ( 2 ∣ 1 ) = P ( X ∈ R 2 ∣ Π 1 ) = ∫ R 2 f 1 ( X ) d X P(2|1)=P(\bold{X}\in R_2|\Pi_1)=\int_{R_2}f_1(\bold{X})d\bold{X} P(2∣1)=P(X∈R2∣Π1)=∫R2f1(X)dX
是将实际来自 Π 1 \Pi_1 Π1类别中的变量错误的划分到 Π 2 \Pi_2 Π2中的概率;
P ( 1 ∣ 2 ) = P ( X ∈ R 1 ∣ Π 2 ) = ∫ R 1 f 2 ( X ) d X P(1|2)=P(\bold{X}\in R_1|\Pi_2)=\int_{R_1}f_2(\bold{X})d\bold{X} P(1∣2)=P(X∈R1∣Π2)=∫R1f2(X)dX
是将 Π 2 \Pi_2 Π2类别中的变量划分到 Π 1 \Pi_1 Π1中的概率;
p 1 p_1 p1是 X \bold{X} X属于 Π 1 \Pi_1 Π1的先验概率;
p 2 = 1 − p 1 p_2=1-p_1 p2=1−p1是 X \bold{X} X属于 Π 2 \Pi_2 Π2的先验概率;
c ( 1 ∣ 2 ) c(1|2) c(1∣2)是 X \bold{X} X来自 Π 2 \Pi_2 Π2却被错误的划分成 Π 1 \Pi_1 Π1的代价;
c ( 2 ∣ 1 ) c(2|1) c(2∣1)是 X \bold{X} X来自 Π 1 \Pi_1 Π1却被错误的划分成 Π 2 \Pi_2 Π2的代价;
显然有 c ( 1 ∣ 1 ) = c ( 2 ∣ 2 ) = 0 c(1|1)=c(2|2)=0 c(1∣1)=c(2∣2)=0.
下面对ECM准则进行恒等变形,便于确定 R 1 和 R 2 R_1和R_2 R1和R2:
E C M = c ( 2 ∣ 1 ) p 1 ∫ R 2 f 1 ( X ) d X + c ( 1 ∣ 2 ) p 2 ∫ R 1 f 2 ( X ) d X = c ( 2 ∣ 1 ) p 1 ( 1 − ∫ R 1 f 1 ( X ) d X ) + c ( 1 ∣ 2 ) p 2 ∫ R 1 f 2 ( X ) d X = c ( 2 ∣ 1 ) p 1 + ∫ R 1