摘要
与聚类不同的是,判别分析中,已知样本分类的前提(历史分组信息),利用历史数据,将给定的新样品按照某种准则判给某类。在机器学习中,可以理解为有监督学习。
目标
寻找一种“分类规则”即判别函数,来描述或区别多个群体的差异。
样品到总体的马氏距离
设有一总体G,其均值为 μ \mu μ, 其协方差为 Σ = ( δ i j ) p × p \Sigma=(\delta_{ij})_{p\times p} Σ=(δij)p×p,样品 x = ( x 1 , x 2 , . . , x p ) T x=(x_1,x_2,..,x_p)^T x=(x1,x2,..,xp)T与G的马氏距离定义为
d 2 ( x , G ) = ( x − μ ) T Σ − 1 ( x − μ ) d^2(x,G)=(x-\mu)^T\Sigma^{-1}(x-\mu) d2(x,G)=(x−μ)TΣ−1(x−μ)
距离判别法
基本思想
新样品和哪个总体距离(通常使用马氏距离)近,就判给哪个总体。
假设有两个总体 G 1 、 G 2 , 均 值 为 μ 1 、 μ 2 G_1、G_2,均值为\mu_1、\mu_2 G1、G2,均值为μ1、μ2,新样品为 x = ( x 1 , x 2 , . . , x p ) T x=(x_1,x_2,..,x_p)^T x=(x1,x2,..,xp)T
{ x ∈ G 1 , i f d ( x , μ 1 ) < d ( x , μ 2 ) x ∈ G 2 , i f d ( x , μ 1 ) ≥ d ( x , μ 2 ) \begin{cases} x\in G_1 &,if~~d(x,\mu_1)<d(x,\mu_2)\\ x \in G_2 &,if~~ d(x,\mu_1)\ge d(x,\mu_2) \end{cases} {
x∈G1x∈G2,if d(x,μ1)<d(x,μ2),if d(x,μ1)≥d(x,μ2)
- 假设两个总体的协方差矩阵不同,分别为 Σ 1 、 Σ 2 \Sigma_1、\Sigma_2 Σ1、Σ2
根据基本思想,我们来比较新样品距离那个总体更近
d 2 ( x , μ 2 ) − d 2 ( x , μ 1 ) = ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) d^2(x,\mu_2)-d^2(x,\mu_1)\\=(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) d2(x,μ2)−d2(x,μ1)=(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)
W ( x ) = ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) \\W(x)=(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) W(x)=(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1) - 假设两个总体具有相同的协方差矩阵
d 2 ( x , μ 2 ) − d 2 ( x , μ 1 ) = ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) = 2 ( x − μ 1 + μ 2 2 ) T Σ − 1 ( μ 1 − μ 2 ) d^2(x,\mu_2)-d^2(x,\mu_1) \\ \\ =(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1) \\ \\ =2(x-\frac{\mu_1+\mu_2}{2})^T\Sigma^{-1}(\mu_1-\mu_2)\\ d2(x,μ2)−d2(x,μ1)