判别分析(Discriminate Analysis)

判别分析主要是针对有监督学习的分类问题。

这里回顾一下有监督和无监督学习

有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。( LR,SVM,BP,RF,GBDT)

也就是说:利用一组已知类别的样本,通过训练学习,得出一个分类器(最优的模型),再用这个分类器去判断未知类别样本是属于哪一类。

有监督学习常用于回归分析(连续型)和统计分类(离散型)。最典型的算法是KNN和SVM

无监督学习:对未标记的样本进行训练学习,发现这些样本中的结构知识。 (KMeans,DL)

也就是说:不知道样本数据中数据之间的关系,而是要根据样本间的相似性对样本集进行分类(聚类)或一定的模型得到数据之间的关系。

意义:对数据进行降维处理

  • 特征提取
  • 特征压缩:PCA

不同点
比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。

有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。


当然,这里主要是对判别分析的理论进行整理

一、什么是判别分析

前面说到,判别分析就是一种分类方法,即判别样本所属类别的一种统计方法。

判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。

而聚类分析是事先并不知道分类标准,属于无监督学习,它是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归为不同类。

举个简单的例子:
下面是随便构造的数据,利用已知类别的样本,为未知样本判类,即根据语文成绩、数学成绩、英语成绩等多种指标来判定最后两个学生所属类型

语文数学英语类别
909995优秀
808370良好
898999优秀
524465不合格
706882良好
919482优秀
546212不合格
777281待判
986073待判

二、判别方法

根据判别方法的不同,主要有以下四种方法:

(1)距离判别法
(2)Fisher判别法
(3)贝叶斯判别法
(4)逐步判别法

2.1 距离判别法

距离判别的基本思想是: 若样本与第 i 类总体的重心距离最近,就认为它来自第 i 类,因此, 距离判别也称为直观判别法。

距离判别法,对各类(或总体)的分布,并无特定的要求。

2.1.1 马氏距离

距离判别的最直观的想法是计算样品到第 i 类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,考虑构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。

设从期望 μ = ( μ 1 , μ 2 , ⋯   , μ m ) ′ \mu =\left( \mu _1,\mu _2,\cdots ,\mu _m \right) ' μ=(μ1,μ2,,μm)和方差阵 Σ = ( σ i j ) m × m > 0 \varSigma =\left( \sigma _{ij} \right) _{m\times m}>0 Σ=(σij)m×m>0的总体G中抽取两组观测值
x = ( x 1 , x 2 , ⋯   , x m ) ′ \mathbf{x}=\left( x_1,x_2,\cdots ,x_m \right) ' x=(x1,x2,,xm)
y = ( y 1 , y 2 , ⋯   , y m ) ′ \mathbf{y}=\left( y_1,y_2,\cdots ,y_m \right) ' y=(y1,y2,,ym)

则X与Y之间的马氏距离 定义为:
d 2 ( x , y ) = ( x − y ) ′ Σ − 1 ( x − y ) d^2\left( \mathbf{x,y} \right) =\left( \mathbf{x}-\mathbf{y} \right) '\varSigma ^{-1}\left( \mathbf{x}-\mathbf{y} \right) d2(x,y)=(xy)Σ1(xy)

样本 X 和 G i G_i Gi 类之间的马氏距离定义为 X 与 G i G_i Gi 类重心间的距离:
d 2 ( x , G i ) = ( x − μ i ) ′ Σ − 1 ( x − μ i ) i = 1 , 2 , ⋯   , k d^2\left( \mathbf{x,}G_i \right) =\left( \mathbf{x}-\mu _i \right) '\Sigma ^{-1}\left( \mathbf{x}-\mu _i \right) \begin{matrix} & i=1,2,\cdots ,k\\ \end{matrix} d2(x,Gi)=(xμi)Σ1(xμi)i=1,2,,k

马氏距离和欧式距离之间的差别:

马氏距离:
d 2 ( x , G ) = ( x − μ ) ′ Σ − 1 ( x − μ ) d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\Sigma ^{-1}\left( x-\mu \right) d2(x,G)=(xμ)Σ1(xμ)
欧式距离:
d 2 ( x , G ) = ( x − μ ) ′ ( x − μ ) d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\left( x-\mu \right) d2(x,G)=(xμ)(xμ)
因此、马氏距离有如下的特点:

  • 马氏距离不受计量单位的影响
  • 马氏距离是标准化后的变量的欧式距离

2.1.2 两个总体距离判别法

1、协方差相等,即 Σ 1 = Σ 2 = Σ \varSigma _1=\varSigma _2=\varSigma Σ1=Σ2=Σ

先考虑两个总体的情况,设有两个正态总体(或称两类) G 1 G_1 G1 G 2 G_2 G2 ,对给定的样本Y,判别这个样本 Y 到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故用马氏距离来给定判别规则,有:

首先计算 X 到 G 1 G_1 G1 G 2 G_2 G2总体的距离,按距离最近准则判别归类,则可写成:
{ y ∈ G 1 ,即 d 2 ( y , G 1 ) < d 2 ( y , G 2 ) y ∈ G 2 ,即 d 2 ( y , G 2 ) < d 2 ( y , G 1 ) 待判,即 d 2 ( y , G 1 ) = d 2 ( y , G 2 ) \left\{ \begin{array}{l} \mathbf{y}\in G_1\text{,即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{,即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判,即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right. yG1,即d2(y,G1)<d2(y,G2)yG2,即d2(y,G2)<d2(y,G1)待判,即d2(y,G1)=d2(y,G2)

这里, μ 1 , μ 2 , Σ 1 , Σ 2 \mu _1\text{,}\mu _2\text{,}\varSigma _1\text{,}\varSigma _2 μ1μ2Σ1Σ2,分别为总体 G 1 G_1 G1 G 2 G_2 G2的均值和协方差阵:
d 2 ( y , G 2 ) − d 2 ( y , G 1 ) = ( y − μ 2 ) ′ Σ − 1 ( y − μ 2 ) − ( y − μ 1 ) ′ Σ − 1 ( y − μ 1 ) = 2 [ y − ( μ 1 + μ 2 ) 2 ] ′ Σ − 1 ( μ 1 − μ 2 ) \begin{array}{l} d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _1 \right)\\ \end{array}=2\left[ \mathbf{y}-\frac{\left( \mu _1+\mu _2 \right)}{2} \right] '\Sigma ^{-1}\left( \mu _1-\mu _2 \right) d2(y,G2)d2(y,G1)=(yμ2)Σ1(yμ2)(yμ1)Σ1(yμ1)=2[y2(μ1+μ2)]Σ1(μ1μ2)


μ ˉ = μ 1 + μ 2 2 , α = Σ − 1 ( μ 1 − μ 2 ) = ( a 1 , a 2 , ⋯   , a p ) ′ \bar{\mu}=\frac{\mu _1+\mu _2}{2}\text{,}\alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) =\left( a_1,a_2,\cdots ,a_p \right) ' μˉ=2μ1+μ2α=Σ1(μ1μ2)=(a1,a2,,ap)

则可以写成

W ( y ) = ( y − μ ˉ ) ′ α = α ′ ( y − μ ˉ ) = α ′ y − α ′ μ ˉ W\left( \mathbf{y} \right) =\left( \mathbf{y}-\bar{\mu} \right) '\alpha =\alpha '\left( \mathbf{y}-\bar{\mu} \right) =\mathbf{\alpha 'y}-\mathbf{\alpha '\bar{\mu}} W(y)=(yμˉ)α=α(yμˉ)=αyαμˉ
则前面的判别法则表示为
{ y ∈ G 1 ,即 W ( y ) > 0 y ∈ G 2 , 即 W ( y ) < 0 待判,即 W ( y ) = 0 \left\{ \begin{array}{l} \mathbf{y}\in G_1\begin{matrix} \text{,即}& W\left( \mathbf{y} \right) >0\\ \end{matrix}\\ \\ \mathbf{y}\in G_2\text{,}\begin{matrix} \text{即}& W\left( \mathbf{y} \right) <0\\ \end{matrix}\\ \\ \text{待判,即}W\left( \mathbf{y} \right) =0\\ \end{array} \right. yG1,即W(y)>0yG2W(y)<0待判,即W(y)=0

μ 1 , μ 2 , Σ 1 , Σ 2 \mu _1\text{,}\mu _2\text{,}\varSigma _1\text{,}\varSigma _2 μ1μ2Σ1Σ2已知时, α = Σ − 1 ( μ 1 − μ 2 ) \alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) α=Σ1(μ1μ2) 是一个已知的p维向量,,当它们未知时,可通过样本来估计。

这个规则取决于 W(y) 的值,通常称 W(y) 为判别函数,由于它是的线性函数,又称为线性判别函数, α \alpha α 称为判别系数(类似于回归系数)。线性判别函数使用起来最方便,在实际应用中也最广泛。

2、当总体的协方差已知,且不相等,即 Σ 1 ≠ Σ 2 \varSigma _1\ne \varSigma _2 Σ1=Σ2

{ y ∈ G 1 ,即 d 2 ( y , G 1 ) < d 2 ( y , G 2 ) y ∈ G 2 ,即 d 2 ( y , G 2 ) < d 2 ( y , G 1 ) 待判,即 d 2 ( y , G 1 ) = d 2 ( y , G 2 ) \left\{ \begin{array}{l} \mathbf{y}\in G_1\text{,即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{,即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判,即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right. yG1,即d2(y,G1)<d2(y,G2)yG2,即d2(y,G2)<d2(y,G1)待判,即d2(y,G1)=d2(y,G2)
这里用
W ( y ) = d 2 ( y , G 2 ) − d 2 ( y , G 1 ) = ( y − μ 2 ) ′ Σ 2 − 1 ( y − μ 2 ) − ( y − μ 1 ) ′ Σ 1 − 1 ( y − μ 1 ) W\left( \mathbf{y} \right) =d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\Sigma _2^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\Sigma _1^{-1}\left( \mathbf{y}-\mu _1 \right) W(y)=d2(y,G2)d2(y,G1)=(yμ2)Σ21(yμ2)(yμ1)Σ11(yμ1)

作为判别函数,这时它是 y 的二次函数

2.1.3 多个总体距离判别法

1、 协差阵相等
设有 k 个总体 G 1 , G 2 , ⋯   , G k G_1,G_2,\cdots ,G_k G1,G2,,Gk ,它们的均值分别是 μ 1 , μ 2 , ⋯   , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,,μk,协方差阵均为 Σ \varSigma Σ 。类似两个总体的讨论,判别函数为:
W i j = ( y − ( μ i + μ j ) 2 ) ′ Σ − 1 ( μ i − μ j ) , i , j = 1 , 2 , ⋯   , k W_{ij}=\left( y-\frac{\left( \mu _i+\mu _j \right)}{2} \right) '\varSigma ^{-1}\left( \mu _i-\mu _j \right) \text{,}i,j=1,2,\cdots ,k Wij=(y2(μi+μj))Σ1(μiμj)i,j=1,2,,k
相应的判别规则是:
{ y ∈ G i ,即 W i j ( y ) > 0 , ∀ j ≠ i 待判,即某个 W i j ( y ) = 0 \left\{ \begin{array}{l} y\in G_i\text{,即}W_{ij}\left( y \right) >0\text{,}\forall j\ne i\\ \\ \text{待判,即某个}W_{ij}\left( y \right) =0\\ \end{array} \right. yGi,即Wij(y)>0j=i待判,即某个Wij(y)=0

μ 1 , μ 2 , ⋯   , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,,μk Σ \varSigma Σ 未知时,可通过样本进行估计。

2、 协差阵不等
这时判别函数为
W i j ( y ) = ( x − μ i ) ′ Σ i − 1 ( x − μ i ) − ( x − μ j ) ′ Σ j − 1 ( x − μ j ) W_{ij}\left( y \right) =\left( x-\mu _i \right) '\varSigma _i^{-1}\left( x-\mu _i \right) -\left( x-\mu _j \right) '\varSigma _j^{-1}\left( x-\mu _j \right) Wij(y)=(xμi)Σi1(xμi)(xμj)Σj1(xμj)
判别规则为
{ y ∈ G i ,即 W i j ( y ) < 0 , ∀ j ≠ i 待判,即某个 W i j ( y ) = 0 \left\{ \begin{array}{l} y\in G_i\text{,即}W_{ij}\left( y \right) <0\text{,}\forall j\ne i\\ \\ \text{待判,即某个}W_{ij}\left( y \right) =0\\ \end{array} \right. yGi,即Wij(y)<0j=i待判,即某个Wij(y)=0

2.2 Bayes判别法

距离判别只要求知道总体的特征量(即参数)—均值和协差阵,不涉及总体的分布类型, 当参数未知时,就用样本均值和样本协差阵来估计。因此,距离判别是一种十分简单实用,结论明确的方法,但该方法也有缺点:

  1. 该判别法与各总体出现的机会大小(先验概率)完全无关;
  2. 判别方法没有考虑错判造成的损失,这是不合理的。

总的来说,就是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验
概率)出现,也没有考虑误判之后所造成的损失的差异。

因此,使用 Bayes判别法可以很好的解决上述两个问题

2.2.1 Bayes的统计思想

贝叶斯统计学与经典统计学的差别在于,贝叶斯统计在重视使用总体信息、样本信息的同时,还十分重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来。先验信息就是抽样之前有关统计问题的一些信息,先验信息一般来源于经验和历史资料。

贝叶斯统计的基本思想:任一未知量 θ \theta θ 都可看作随机变量,根据经验或者历史资料,用一个概率分布去描述,这个分布称为先验分布;在获得样本之后,用样本来修正已有的认识(先验概率分布),得到后验概率分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θx)。后面的各种统计推断都基于这个后验概率分布来进行。

后验分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θx) 集中了总体、样本和先验中有关 θ \theta θ 的一切信息,而又是排除一切与 θ \theta θ 无关的信息之后得到的结果。
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) Σ P ( A ∣ B i ) P ( B i ) P\left( B_i|A \right) =\frac{P\left( A|B_i \right) P\left( B_i \right)}{\Sigma P\left( A|B_i \right) P\left( B_i \right)} P(BiA)=ΣP(ABi)P(Bi)P(ABi)P(Bi)


π ( θ ∣ x ) = h ( x , θ ) m ( x ) = f ( x ∣ θ ) π ( θ ) ∫ Θ f ( x ∣ θ ) π ( θ ) d θ \pi \left( \theta |x \right) =\frac{h\left( x,\theta \right)}{m\left( x \right)}=\frac{f\left( x|\theta \right) \pi \left( \theta \right)}{\int_{\Theta}{f\left( x|\theta \right) \pi \left( \theta \right) d\theta}} π(θx)=m(x)h(x,θ)=Θf(xθ)π(θ)dθf(xθ)π(θ)

关于贝叶斯统计的知识,后面自己还会总结

设有 k 总体 G 1 , G 2 , ⋯   , G k G_1,G_2,\cdots ,G_k G1,G2,,Gk G i G_i Gi具有具有概率密度函数 f i ( x ) f_i\left( x \right) fi(x)。并且根据以往的统计分析(经验或历史资料),知道 G i G_i Gi 出现的概率为 q i q_i qi。即当已知样本 x 0 x_0 x0 发生时,求它属于 G i G_i Gi 类的概率。由贝叶斯公式计算后验概率,有:

P ( G i ∣ x 0 ) = q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_i|x_0 \right) =\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Gix0)=Σqjfj(x0)qifi(x0)

判别规则:
P ( G h ∣ x 0 ) = q h f h ( x 0 ) Σ q j f j ( x 0 ) = max ⁡ 1 ≤ i ≤ k { P ( G i / x ) } = max ⁡ 1 ≤ i ≤ k q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_h|x_0 \right) =\frac{q_hf_h\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}=\underset{1\le i\le k}{\max}\left\{ P\left( G_i/x \right) \right\} =\underset{1\le i\le k}{\max}\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Ghx0)=Σqjfj(x0)qhfh(x0)=1ikmax{P(Gi/x)}=1ikmaxΣqjfj(x0)qifi(x0)

x 0 x_0 x0 判给 G h G_h Gh 。在正态的假定下, f h ( x ) f_h\left( x \right) fh(x) 为正态分布的密度函数。

特别de ,若总体服从正态分布,则
q h f h ( x 0 ) = max ⁡ q i f i ( x 0 ) 1 ≤ i ≤ k q_{\text{h}}f_h\left( x_0 \right) =\underset{1\le i\le k}{\max q_if_i\text{(}x_0\text{)}} qhfh(x0)=1ikmaxqifi(x0)

x 0 x_0 x0 判给 G h G_h Gh

2.2.2 多元正态总体的Bayes判别法

在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别法。

(1)判别函数的导出

由前面的叙述可知,使用Bayes判别法作判别分析,首先要知道待判总体的先验概率和密度函数。对于先验概率,一般用样品的频率来代替。或者令先验概率 π ( θ ) = 1 \pi \left( \theta \right) =1 π(θ)=1 或相等,这时可以认为先验概率不起作用。

设正态分布密度函数为:

f i ( x ) = 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 f_i\left( x \right) =\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} fi(x)=(2πΣi)1/21e2(xμ(i))Σi1(xμi)


q i f i ( x ) = q i 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 q_if_i\left( x \right) =q_i\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} qifi(x)=qi(2πΣi)1/21e2(xμ(i))Σi1(xμi)

上式两边取对数并去掉与 i 无关的项,则等价的判别函数为:
z i ( x ) = ln ⁡ ( q i f i ( x ) ) = ln ⁡ q i − 1 2 ln ⁡ | Σ i ∣ − 1 2 ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ ( i ) ) ] z_i\left( x \right) =\ln \left( q_if_i\left( \mathbf{x} \right) \right) =\ln q_i-\frac{1}{2}\ln\text{|}\Sigma _i|-\frac{1}{2}\left( x-\mu ^{\left( i \right)} \right) '\Sigma _{i}^{-1}\left( x-\mu ^{\left( i \right)} \right) \text{]} zi(x)=ln(qifi(x))=lnqi21ln|Σi21(xμ(i))Σi1(xμ(i))]

问题转化为:

Z h ( x ) = max ⁡ 1 ≤ i ≤ k [ Z i ( x ) ] Z_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ Z_i\left( x \right) \right] Zh(x)=1ikmax[Zi(x)]
x x x 判给 G h G_h Gh

1、协方差相等,即 Σ 1 = Σ 2 = ⋯ = Σ k = Σ \varSigma _1=\varSigma _2=\cdots =\varSigma _k=\varSigma Σ1=Σ2==Σk=Σ

则判别函数退化为

z i ( x ) = ln ⁡ q i − 1 2 ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) z_i\left( x \right) =\ln q_i-\frac{1}{2}\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)} zi(x)=lnqi21(xμ(i))Σ1(xμ(i))
= − 1 2 [ − 2 ln ⁡ q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) )] =-\frac{1}{2}\text{[}-2\ln q_i+\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)]} =21[2lnqi+(xμ(i))Σ1(xμ(i))]

{ F i ( x ) = − 2 ln ⁡ q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) P i ( x ) = − 2 ln ⁡ q i − 2 μ ( i ) ′ Σ − 1 x + μ ( i ) ′ Σ − 1 μ ( i ) \left\{ \begin{array}{l} F_i\left( x \right) =-2\ln q_i+\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\mathbf{)'}\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}\\ \\ P_i\left( x \right) =-2\ln q_i-2\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}\\ \end{array} \right. Fi(x)=2lnqi+(xμ(i))Σ1(xμ(i))Pi(x)=2lnqi2μ(i)Σ1x+μ(i)Σ1μ(i)

问题转化为


P h ( x ) = min ⁡ 1 ≤ i ≤ k [ P i ( x ) ] P_h\left( x \right) =\underset{1\le i\le k}{\min}\left[ P_i\left( x \right) \right] Ph(x)=1ikmin[Pi(x)]
x x x 判给 G h G_h Gh

又由
P i ( x ) = − 2 ( ln ⁡ q i − 1 2 μ ( i ) Σ − 1 μ ( i ) + μ ( i ) Σ − 1 x ) P_i\left( x \right) =-2\left( \ln q_i-\frac{1}{2}\mu ^{\left( i \right)}\varSigma ^{-1}\mu ^{\left( i \right)}+\mu ^{\left( i \right)}\varSigma ^{-1}x \right) Pi(x)=2(lnqi21μ(i)Σ1μ(i)+μ(i)Σ1x)


m i ( x ) = ln ⁡ q i − 1 2 μ ( i ) ′ Σ − 1 μ ( i ) + μ ( i ) ′ Σ − 1 x m_i\left( \mathbf{x} \right) =\ln q_i-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x} mi(x)=lnqi21μ(i)Σ1μ(i)+μ(i)Σ1x

问题转化为

m h ( x ) = max ⁡ 1 ≤ i ≤ k [ m i ( x ) ] m_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ m_i\left( x \right) \right] mh(x)=1ikmax[mi(x)]
x x x 判给 G h G_h Gh

当先验概率相等, q 1 = ⋯ = q k = 1 k q_1=\cdots =q_k=\frac{1}{k} q1==qk=k1

m i ( x ) = − 1 2 μ ( i ) ′ Σ − 1 μ ( i ) + μ ( i ) ′ Σ − 1 x m_i\left( \mathbf{x} \right) =-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x} mi(x)=21μ(i)Σ1μ(i)+μ(i)Σ1x
完全成为距离判别法 。

2.3 Fisher判别法

2.3.1 Fisher判别的基本思想

Fisher(费歇)判别的基本思想是投影,将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开,而衡量组与组之间是否分开的方法借助于一元方差分析的思想,利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出.

该判别方法对总体的分布不做任何要求。

从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:
Y = C 1 X 1 + C 2 X 2 + ⋯ + C p X p Y=C_1X_1+C_2X_2+\cdots +C_pX_p Y=C1X1+C2X2++CpXp
其中系数 C 1 , C 2 , ⋯   , C p C_1,C_2,\cdots ,C_p C1,C2,,Cp 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。

假设可以得到一个线性判别函数:
y = c 1 x 1 + c 2 x 2 + ⋯ + c p x p y=c_1x_1+c_2x_2+\cdots +c_px_p y=c1x1+c2x2++cpxp

可以把两个总体的样品代入上面的判别式
y i ( 1 ) = c 1 x i 1 ( 1 ) + c 2 x i 2 ( 1 ) + ⋯ + c p x i p ( 1 ) y_{i}^{\left( 1 \right)}=c_1x_{i1}^{\left( 1 \right)}+c_2x_{i2}^{\left( 1 \right)}+\cdots +c_px_{ip}^{\left( 1 \right)} yi(1)=c1xi1(1)+c2xi2(1)++cpxip(1)

y i ( 2 ) = c 1 x i 1 ( 2 ) + c 2 x i 2 ( 2 ) + ⋯ + c p x i p ( 2 ) y_{i}^{\left( 2 \right)}=c_1x_{i1}^{\left( 2 \right)}+c_2x_{i2}^{\left( 2 \right)}+\cdots +c_px_{ip}^{\left( 2 \right)} yi(2)=c1xi1(2)+c2xi2(2)++cpxip(2)
分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:

{ y ˉ ( 1 ) = ∑ k = 1 p c k x ˉ k ( 1 ) y ˉ ( 2 ) = ∑ k = 1 p c k x ˉ k ( 2 ) \left\{ \begin{array}{l} \bar{y}^{\left( 1 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 1 \right)}}\\ \\ \bar{y}^{\left( 2 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 2 \right)}}\\ \end{array} \right. yˉ(1)=k=1pckxˉk(1)yˉ(2)=k=1pckxˉk(2)
最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。

组间离差平方和:
( Y ˉ ( 1 ) − Y ˉ ) 2 + ( Y ˉ ( 2 ) − Y ˉ ) 2 = ( Y ˉ ( 1 ) − Y ˉ ( 1 ) + Y ˉ ( 2 ) 2 ) 2 + ( Y ˉ ( 2 ) − Y ˉ ( 1 ) + Y ˉ ( 2 ) 2 ) 2 \left( \bar{Y}^{\left( 1 \right)}-\bar{Y} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\bar{Y} \right) ^2=\left( \bar{Y}^{\left( 1 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2 (Yˉ(1)Yˉ)2+(Yˉ(2)Yˉ)2=(Yˉ(1)2Yˉ(1)+Yˉ(2))2+(Yˉ(2)2Yˉ(1)+Yˉ(2))2

= 1 4 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 + 1 4 ( Y ˉ ( 2 ) − Y ˉ ( 1 ) ) 2 = 1 2 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 = 1 2 ( c ′ X ˉ ( 1 ) − c ′ X ˉ ( 2 ) ) 2 =\frac{1}{4}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2+\frac{1}{4}\left( \bar{Y}^{\left( 2 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2=\frac{1}{2}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2=\frac{1}{2}\left( \mathbf{c'}\bar{X}^{\left( 1 \right)}-\mathbf{c'}\bar{X}^{\left( 2 \right)} \right) ^2 =41(Yˉ(1)Yˉ(2))2+41(Yˉ(2)Yˉ(1))2=21(Yˉ(1)Yˉ(2))2=21(cXˉ(1)cXˉ(2))2

总体内部的方差和:
E ( Y ( 1 ) − Y ˉ ( 1 ) ) 2 + E ( Y ( 2 ) − Y ˉ ( 2 ) ) 2 E\left( Y^{\left( 1 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2+E\left( Y^{\left( 2 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2 E(Y(1)Yˉ(1))2+E(Y(2)Yˉ(2))2
I = 组间离差平方和 组内方差和 I=\frac{\text{组间离差平方和}}{\text{组内方差和}} I=组内方差和组间离差平方和
I = 1 2 c ′ ( X ˉ ( 1 ) − X ˉ ( 2 ) ) ( X ˉ ( 1 ) − X ˉ ( 2 ) ) ′ c c ′ Σ c I=\frac{\frac{1}{2}\mathbf{c'}\left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) \left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) '\mathbf{c}}{\mathbf{c'}\varSigma \mathbf{c}} I=cΣc21c(Xˉ(1)Xˉ(2))(Xˉ(1)Xˉ(2))c
I 最小时判别 函数最好

判别准则 :

定义临界点为:
y 0 = n 1 y ˉ ( 1 ) + n 2 y ˉ ( 2 ) n 1 + n 2 y_0=\frac{n_1\bar{y}^{\left( 1 \right)}+n_2\bar{y}^{\left( 2 \right)}}{n_1+n_2} y0=n1+n2n1yˉ(1)+n2yˉ(2)
不妨假设:
y ˉ ( 1 ) > y ˉ ( 2 ) \bar{y}^{\left( 1 \right)}>\bar{y}^{\left( 2 \right)} yˉ(1)>yˉ(2)
如果由原始数据 y 求得判别函数得分为 Y*,对与一个样本代入判别函数中,若 Y*> Y 0 Y_0 Y0,则判给G1,否则判给G2。

2.4 逐步判别法

  • 32
    点赞
  • 234
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
MATLAB的分类工具箱(Classification Toolbox)提供了丰富的函数和工具,可用于进行线性判别分析(Linear Discriminant Analysis)。线性判别分析是一种常用的模式识别和分类方法,旨在在给定一组输入数据的情况下将其划分为预定义的类别。 在MATLAB中,有多种函数可以用于执行线性判别分析。这些函数包括`fitcdiscr`和`classify`等。`fitcdiscr`函数用于拟合线性判别模型,而`classify`函数用于对新样本进行分类。 线性判别分析的基本思想是将数据投影到低维空间中,并选择使不同类别样本之间差异最大化的投影方向。在MATLAB中,可以使用`fitcdiscr`函数来训练线性判别模型。该函数需要输入训练数据的特征矩阵和类标签向量。例如,假设有一个包含100个样本的训练数据集,每个样本有10个特征,可以使用以下代码来训练线性判别模型: ```matlab X = rand(100, 10); % 特征矩阵 Y = [ones(50, 1); 2*ones(50, 1)]; % 类标签向量(1和2) model = fitcdiscr(X, Y); ``` 训练完成后,可以使用`classify`函数来对新样本进行分类。该函数需要输入训练好的线性判别模型和新样本的特征矩阵。例如,假设有一个包含10个新样本的测试数据集,可以使用以下代码来进行分类: ```matlab Xtest = rand(10, 10); % 测试数据的特征矩阵 predictedLabels = classify(Xtest, model); ``` `predictedLabels`是一个包含预测类别标签的向量。 除了以上基本操作,MATLAB的分类工具箱还提供了其他功能,如交叉验证、特征选择和性能评估。这些功能可以帮助用户更全面和准确地分析数据和评估模型的性能。 综上所述,MATLAB的分类工具箱可以很方便地进行线性判别分析,并提供了丰富的功能和函数来支持模型的训练、分类和评估。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值