关于判别分析的学习-距离判别法
距离判别法
距离判别法的基本思想是依据样品x和总体G的距离来判断样品所属的总体。 所以很显然的是我们需要首先定义一个距离函数,来表示样本和总体的距离。
其实很容易首先去想到利用欧式距离来表示 d 2 ( x , G ) = ( x − μ ) ′ ( x − μ ) d^2(x,G)=(x-\mu)'(x-\mu) d2(x,G)=(x−μ)′(x−μ)
μ \mu μ是G的均值向量。
但其实利用欧式距离存在一定的缺点,它将样品的不同属性之间的区别同等看待,存在着量纲问题,如果样品的变量测量值相差悬殊时(例如对汽车进行分类时,单个样品最高速度和安全指数),就需要首先标准化,来消除计量单位对结果的影响。
所以我们这里可以考虑使用马氏(Mahalanobis)距离。 d 2 ( x , G ) = ( x − μ ) ′ ∑ − 1 ( x − μ ) d^2(x,G)=(x-\mu)'\sum\nolimits^{-1}(x-\mu) d2(x,G)=(x−μ)′∑−1(x−μ) ∑ \sum ∑是协方差矩阵, ∑ = ( σ i j ) m ∗ m \sum=(\sigma_{ij})_{m*m} ∑=(σij)m∗m
它是一种有效计算未知样本集相似度的一种方法。马氏距离的结果是将数据投影到N(0,1)区间并求其欧式距离,与标准化欧氏距离有区别的是它认为各个维度之间不是独立分布的,所以马氏距离考虑到各种属性之间的联系。
两个总体的距离判别
假设有两个总体G1和G2,有一个新的样本X,判断它究竟属于哪个总体。判别原则是按照就近原则进行归类。判别规则如下
{ X ∈ G 1 , 如 果 d 2 ( X , G 1 ) < d 2 ( X , G 2 ) X ∈ G 2 , 如 果 d 2 ( X , G 1 ) > d 2 ( X , G 2 ) 待 判 , 如 果 d 2 ( X , G 1 ) = d 2 ( X , G 2 ) \left \{\begin{array}{cc} X\in G_1, &如果d^2(X,G_1)<d^2(X,G_2)\\ X\in G_2, & 如果d^2(X,G_1)>d^2(X,G_2)\\ 待判,&如果d^2(X,G_1)=d^2(X,G_2) \end{array}\right. ⎩⎨⎧X∈G1,X∈G2,待判,如