判别分析主要是针对有监督学习的分类问题。
这里回顾一下有监督和无监督学习
有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。( LR,SVM,BP,RF,GBDT)
也就是说:利用一组已知类别的样本,通过训练学习,得出一个分类器(最优的模型),再用这个分类器去判断未知类别样本是属于哪一类。
有监督学习常用于回归分析(连续型)和统计分类(离散型)。最典型的算法是KNN和SVM
无监督学习:对未标记的样本进行训练学习,发现这些样本中的结构知识。 (KMeans,DL)
也就是说:不知道样本数据中数据之间的关系,而是要根据样本间的相似性对样本集进行分类(聚类)或一定的模型得到数据之间的关系。
意义:对数据进行降维处理
- 特征提取
- 特征压缩:PCA
不同点:
比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。
有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
当然,这里主要是对判别分析的理论进行整理
一、什么是判别分析
前面说到,判别分析就是一种分类方法,即判别样本所属类别的一种统计方法。
判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
而聚类分析是事先并不知道分类标准,属于无监督学习,它是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归为不同类。
举个简单的例子:
下面是随便构造的数据,利用已知类别的样本,为未知样本判类,即根据语文成绩、数学成绩、英语成绩等多种指标来判定最后两个学生所属类型
语文 | 数学 | 英语 | 类别 |
---|---|---|---|
90 | 99 | 95 | 优秀 |
80 | 83 | 70 | 良好 |
89 | 89 | 99 | 优秀 |
52 | 44 | 65 | 不合格 |
70 | 68 | 82 | 良好 |
91 | 94 | 82 | 优秀 |
54 | 62 | 12 | 不合格 |
77 | 72 | 81 | 待判 |
98 | 60 | 73 | 待判 |
二、判别方法
根据判别方法的不同,主要有以下四种方法:
(1)距离判别法
(2)Fisher判别法
(3)贝叶斯判别法
(4)逐步判别法
2.1 距离判别法
距离判别的基本思想是: 若样本与第 i 类总体的重心距离最近,就认为它来自第 i 类,因此, 距离判别也称为直观判别法。
距离判别法,对各类(或总体)的分布,并无特定的要求。
2.1.1 马氏距离
距离判别的最直观的想法是计算样品到第 i 类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,考虑构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设从期望
μ
=
(
μ
1
,
μ
2
,
⋯
,
μ
m
)
′
\mu =\left( \mu _1,\mu _2,\cdots ,\mu _m \right) '
μ=(μ1,μ2,⋯,μm)′和方差阵
Σ
=
(
σ
i
j
)
m
×
m
>
0
\varSigma =\left( \sigma _{ij} \right) _{m\times m}>0
Σ=(σij)m×m>0的总体G中抽取两组观测值
x
=
(
x
1
,
x
2
,
⋯
,
x
m
)
′
\mathbf{x}=\left( x_1,x_2,\cdots ,x_m \right) '
x=(x1,x2,⋯,xm)′
y
=
(
y
1
,
y
2
,
⋯
,
y
m
)
′
\mathbf{y}=\left( y_1,y_2,\cdots ,y_m \right) '
y=(y1,y2,⋯,ym)′
则X与Y之间的马氏距离 定义为:
d
2
(
x
,
y
)
=
(
x
−
y
)
′
Σ
−
1
(
x
−
y
)
d^2\left( \mathbf{x,y} \right) =\left( \mathbf{x}-\mathbf{y} \right) '\varSigma ^{-1}\left( \mathbf{x}-\mathbf{y} \right)
d2(x,y)=(x−y)′Σ−1(x−y)
样本 X 和
G
i
G_i
Gi 类之间的马氏距离定义为 X 与
G
i
G_i
Gi 类重心间的距离:
d
2
(
x
,
G
i
)
=
(
x
−
μ
i
)
′
Σ
−
1
(
x
−
μ
i
)
i
=
1
,
2
,
⋯
,
k
d^2\left( \mathbf{x,}G_i \right) =\left( \mathbf{x}-\mu _i \right) '\Sigma ^{-1}\left( \mathbf{x}-\mu _i \right) \begin{matrix} & i=1,2,\cdots ,k\\ \end{matrix}
d2(x,Gi)=(x−μi)′Σ−1(x−μi)i=1,2,⋯,k
马氏距离和欧式距离之间的差别:
马氏距离:
d
2
(
x
,
G
)
=
(
x
−
μ
)
′
Σ
−
1
(
x
−
μ
)
d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\Sigma ^{-1}\left( x-\mu \right)
d2(x,G)=(x−μ)′Σ−1(x−μ)
欧式距离:
d
2
(
x
,
G
)
=
(
x
−
μ
)
′
(
x
−
μ
)
d^2\left( \mathbf{x,}G \right) =\left( x-\mu \right) '\left( x-\mu \right)
d2(x,G)=(x−μ)′(x−μ)
因此、马氏距离有如下的特点:
- 马氏距离不受计量单位的影响
- 马氏距离是标准化后的变量的欧式距离
2.1.2 两个总体距离判别法
1、协方差相等,即 Σ 1 = Σ 2 = Σ \varSigma _1=\varSigma _2=\varSigma Σ1=Σ2=Σ
先考虑两个总体的情况,设有两个正态总体(或称两类) G 1 G_1 G1、 G 2 G_2 G2 ,对给定的样本Y,判别这个样本 Y 到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故用马氏距离来给定判别规则,有:
首先计算 X 到
G
1
G_1
G1、
G
2
G_2
G2总体的距离,按距离最近准则判别归类,则可写成:
{
y
∈
G
1
,即
d
2
(
y
,
G
1
)
<
d
2
(
y
,
G
2
)
y
∈
G
2
,即
d
2
(
y
,
G
2
)
<
d
2
(
y
,
G
1
)
待判,即
d
2
(
y
,
G
1
)
=
d
2
(
y
,
G
2
)
\left\{ \begin{array}{l} \mathbf{y}\in G_1\text{,即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{,即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判,即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1,即d2(y,G1)<d2(y,G2)y∈G2,即d2(y,G2)<d2(y,G1)待判,即d2(y,G1)=d2(y,G2)
这里,
μ
1
,
μ
2
,
Σ
1
,
Σ
2
\mu _1\text{,}\mu _2\text{,}\varSigma _1\text{,}\varSigma _2
μ1,μ2,Σ1,Σ2,分别为总体
G
1
G_1
G1和
G
2
G_2
G2的均值和协方差阵:
d
2
(
y
,
G
2
)
−
d
2
(
y
,
G
1
)
=
(
y
−
μ
2
)
′
Σ
−
1
(
y
−
μ
2
)
−
(
y
−
μ
1
)
′
Σ
−
1
(
y
−
μ
1
)
=
2
[
y
−
(
μ
1
+
μ
2
)
2
]
′
Σ
−
1
(
μ
1
−
μ
2
)
\begin{array}{l} d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\varSigma ^{-1}\left( \mathbf{y}-\mu _1 \right)\\ \end{array}=2\left[ \mathbf{y}-\frac{\left( \mu _1+\mu _2 \right)}{2} \right] '\Sigma ^{-1}\left( \mu _1-\mu _2 \right)
d2(y,G2)−d2(y,G1)=(y−μ2)′Σ−1(y−μ2)−(y−μ1)′Σ−1(y−μ1)=2[y−2(μ1+μ2)]′Σ−1(μ1−μ2)
令
μ
ˉ
=
μ
1
+
μ
2
2
,
α
=
Σ
−
1
(
μ
1
−
μ
2
)
=
(
a
1
,
a
2
,
⋯
,
a
p
)
′
\bar{\mu}=\frac{\mu _1+\mu _2}{2}\text{,}\alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) =\left( a_1,a_2,\cdots ,a_p \right) '
μˉ=2μ1+μ2,α=Σ−1(μ1−μ2)=(a1,a2,⋯,ap)′
则可以写成
W
(
y
)
=
(
y
−
μ
ˉ
)
′
α
=
α
′
(
y
−
μ
ˉ
)
=
α
′
y
−
α
′
μ
ˉ
W\left( \mathbf{y} \right) =\left( \mathbf{y}-\bar{\mu} \right) '\alpha =\alpha '\left( \mathbf{y}-\bar{\mu} \right) =\mathbf{\alpha 'y}-\mathbf{\alpha '\bar{\mu}}
W(y)=(y−μˉ)′α=α′(y−μˉ)=α′y−α′μˉ
则前面的判别法则表示为
{
y
∈
G
1
,即
W
(
y
)
>
0
y
∈
G
2
,
即
W
(
y
)
<
0
待判,即
W
(
y
)
=
0
\left\{ \begin{array}{l} \mathbf{y}\in G_1\begin{matrix} \text{,即}& W\left( \mathbf{y} \right) >0\\ \end{matrix}\\ \\ \mathbf{y}\in G_2\text{,}\begin{matrix} \text{即}& W\left( \mathbf{y} \right) <0\\ \end{matrix}\\ \\ \text{待判,即}W\left( \mathbf{y} \right) =0\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1,即W(y)>0y∈G2,即W(y)<0待判,即W(y)=0
当 μ 1 , μ 2 , Σ 1 , Σ 2 \mu _1\text{,}\mu _2\text{,}\varSigma _1\text{,}\varSigma _2 μ1,μ2,Σ1,Σ2已知时, α = Σ − 1 ( μ 1 − μ 2 ) \alpha =\Sigma ^{-1}\left( \mu _1-\mu _2 \right) α=Σ−1(μ1−μ2) 是一个已知的p维向量,,当它们未知时,可通过样本来估计。
这个规则取决于 W(y) 的值,通常称 W(y) 为判别函数,由于它是的线性函数,又称为线性判别函数, α \alpha α 称为判别系数(类似于回归系数)。线性判别函数使用起来最方便,在实际应用中也最广泛。
2、当总体的协方差已知,且不相等,即 Σ 1 ≠ Σ 2 \varSigma _1\ne \varSigma _2 Σ1=Σ2
{
y
∈
G
1
,即
d
2
(
y
,
G
1
)
<
d
2
(
y
,
G
2
)
y
∈
G
2
,即
d
2
(
y
,
G
2
)
<
d
2
(
y
,
G
1
)
待判,即
d
2
(
y
,
G
1
)
=
d
2
(
y
,
G
2
)
\left\{ \begin{array}{l} \mathbf{y}\in G_1\text{,即}d^2\left( \mathbf{y,}G_1 \right) <d^2\left( \mathbf{y,}G_2 \right)\\ \\ \mathbf{y}\in G_2\text{,即}d^2\left( \mathbf{y,}G_2 \right) <d^2\left( \mathbf{y,}G_1 \right)\\ \\ \text{待判,即}d^2\left( \mathbf{y,}G_1 \right) =d^2\left( \mathbf{y,}G_2 \right)\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧y∈G1,即d2(y,G1)<d2(y,G2)y∈G2,即d2(y,G2)<d2(y,G1)待判,即d2(y,G1)=d2(y,G2)
这里用
W
(
y
)
=
d
2
(
y
,
G
2
)
−
d
2
(
y
,
G
1
)
=
(
y
−
μ
2
)
′
Σ
2
−
1
(
y
−
μ
2
)
−
(
y
−
μ
1
)
′
Σ
1
−
1
(
y
−
μ
1
)
W\left( \mathbf{y} \right) =d^2\left( \mathbf{y,}G_2 \right) -d^2\left( \mathbf{y,}G_1 \right) =\left( \mathbf{y}-\mu _2 \right) '\Sigma _2^{-1}\left( \mathbf{y}-\mu _2 \right) -\left( \mathbf{y}-\mu _1 \right) '\Sigma _1^{-1}\left( \mathbf{y}-\mu _1 \right)
W(y)=d2(y,G2)−d2(y,G1)=(y−μ2)′Σ2−1(y−μ2)−(y−μ1)′Σ1−1(y−μ1)
作为判别函数,这时它是 y 的二次函数
2.1.3 多个总体距离判别法
1、 协差阵相等
设有 k 个总体
G
1
,
G
2
,
⋯
,
G
k
G_1,G_2,\cdots ,G_k
G1,G2,⋯,Gk ,它们的均值分别是
μ
1
,
μ
2
,
⋯
,
μ
k
\mu _1,\mu _2,\cdots ,\mu _k
μ1,μ2,⋯,μk,协方差阵均为
Σ
\varSigma
Σ 。类似两个总体的讨论,判别函数为:
W
i
j
=
(
y
−
(
μ
i
+
μ
j
)
2
)
′
Σ
−
1
(
μ
i
−
μ
j
)
,
i
,
j
=
1
,
2
,
⋯
,
k
W_{ij}=\left( y-\frac{\left( \mu _i+\mu _j \right)}{2} \right) '\varSigma ^{-1}\left( \mu _i-\mu _j \right) \text{,}i,j=1,2,\cdots ,k
Wij=(y−2(μi+μj))′Σ−1(μi−μj),i,j=1,2,⋯,k
相应的判别规则是:
{
y
∈
G
i
,即
W
i
j
(
y
)
>
0
,
∀
j
≠
i
待判,即某个
W
i
j
(
y
)
=
0
\left\{ \begin{array}{l} y\in G_i\text{,即}W_{ij}\left( y \right) >0\text{,}\forall j\ne i\\ \\ \text{待判,即某个}W_{ij}\left( y \right) =0\\ \end{array} \right.
⎩⎨⎧y∈Gi,即Wij(y)>0,∀j=i待判,即某个Wij(y)=0
当 μ 1 , μ 2 , ⋯ , μ k \mu _1,\mu _2,\cdots ,\mu _k μ1,μ2,⋯,μk, Σ \varSigma Σ 未知时,可通过样本进行估计。
2、 协差阵不等
这时判别函数为
W
i
j
(
y
)
=
(
x
−
μ
i
)
′
Σ
i
−
1
(
x
−
μ
i
)
−
(
x
−
μ
j
)
′
Σ
j
−
1
(
x
−
μ
j
)
W_{ij}\left( y \right) =\left( x-\mu _i \right) '\varSigma _i^{-1}\left( x-\mu _i \right) -\left( x-\mu _j \right) '\varSigma _j^{-1}\left( x-\mu _j \right)
Wij(y)=(x−μi)′Σi−1(x−μi)−(x−μj)′Σj−1(x−μj)
判别规则为
{
y
∈
G
i
,即
W
i
j
(
y
)
<
0
,
∀
j
≠
i
待判,即某个
W
i
j
(
y
)
=
0
\left\{ \begin{array}{l} y\in G_i\text{,即}W_{ij}\left( y \right) <0\text{,}\forall j\ne i\\ \\ \text{待判,即某个}W_{ij}\left( y \right) =0\\ \end{array} \right.
⎩⎨⎧y∈Gi,即Wij(y)<0,∀j=i待判,即某个Wij(y)=0
2.2 Bayes判别法
距离判别只要求知道总体的特征量(即参数)—均值和协差阵,不涉及总体的分布类型, 当参数未知时,就用样本均值和样本协差阵来估计。因此,距离判别是一种十分简单实用,结论明确的方法,但该方法也有缺点:
- 该判别法与各总体出现的机会大小(先验概率)完全无关;
- 判别方法没有考虑错判造成的损失,这是不合理的。
总的来说,就是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验
概率)出现,也没有考虑误判之后所造成的损失的差异。
因此,使用 Bayes判别法可以很好的解决上述两个问题
2.2.1 Bayes的统计思想
贝叶斯统计学与经典统计学的差别在于,贝叶斯统计在重视使用总体信息、样本信息的同时,还十分重视先验信息的收集、挖掘和加工,使它数量化,形成先验分布,参加到统计推断中来。先验信息就是抽样之前有关统计问题的一些信息,先验信息一般来源于经验和历史资料。
贝叶斯统计的基本思想:任一未知量 θ \theta θ 都可看作随机变量,根据经验或者历史资料,用一个概率分布去描述,这个分布称为先验分布;在获得样本之后,用样本来修正已有的认识(先验概率分布),得到后验概率分布 π ( θ ∣ x ) \pi \left( \theta |x \right) π(θ∣x)。后面的各种统计推断都基于这个后验概率分布来进行。
后验分布
π
(
θ
∣
x
)
\pi \left( \theta |x \right)
π(θ∣x) 集中了总体、样本和先验中有关
θ
\theta
θ 的一切信息,而又是排除一切与
θ
\theta
θ 无关的信息之后得到的结果。
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
Σ
P
(
A
∣
B
i
)
P
(
B
i
)
P\left( B_i|A \right) =\frac{P\left( A|B_i \right) P\left( B_i \right)}{\Sigma P\left( A|B_i \right) P\left( B_i \right)}
P(Bi∣A)=ΣP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = f ( x ∣ θ ) π ( θ ) ∫ Θ f ( x ∣ θ ) π ( θ ) d θ \pi \left( \theta |x \right) =\frac{h\left( x,\theta \right)}{m\left( x \right)}=\frac{f\left( x|\theta \right) \pi \left( \theta \right)}{\int_{\Theta}{f\left( x|\theta \right) \pi \left( \theta \right) d\theta}} π(θ∣x)=m(x)h(x,θ)=∫Θf(x∣θ)π(θ)dθf(x∣θ)π(θ)
关于贝叶斯统计的知识,后面自己还会总结
设有 k 总体 G 1 , G 2 , ⋯ , G k G_1,G_2,\cdots ,G_k G1,G2,⋯,Gk, G i G_i Gi具有具有概率密度函数 f i ( x ) f_i\left( x \right) fi(x)。并且根据以往的统计分析(经验或历史资料),知道 G i G_i Gi 出现的概率为 q i q_i qi。即当已知样本 x 0 x_0 x0 发生时,求它属于 G i G_i Gi 类的概率。由贝叶斯公式计算后验概率,有:
P ( G i ∣ x 0 ) = q i f i ( x 0 ) Σ q j f j ( x 0 ) P\left( G_i|x_0 \right) =\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)} P(Gi∣x0)=Σqjfj(x0)qifi(x0)
判别规则:
P
(
G
h
∣
x
0
)
=
q
h
f
h
(
x
0
)
Σ
q
j
f
j
(
x
0
)
=
max
1
≤
i
≤
k
{
P
(
G
i
/
x
)
}
=
max
1
≤
i
≤
k
q
i
f
i
(
x
0
)
Σ
q
j
f
j
(
x
0
)
P\left( G_h|x_0 \right) =\frac{q_hf_h\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}=\underset{1\le i\le k}{\max}\left\{ P\left( G_i/x \right) \right\} =\underset{1\le i\le k}{\max}\frac{q_if_i\left( x_0 \right)}{\Sigma q_jf_j\left( x_0 \right)}
P(Gh∣x0)=Σqjfj(x0)qhfh(x0)=1≤i≤kmax{P(Gi/x)}=1≤i≤kmaxΣqjfj(x0)qifi(x0)
则 x 0 x_0 x0 判给 G h G_h Gh 。在正态的假定下, f h ( x ) f_h\left( x \right) fh(x) 为正态分布的密度函数。
特别de ,若总体服从正态分布,则
q
h
f
h
(
x
0
)
=
max
q
i
f
i
(
x
0
)
1
≤
i
≤
k
q_{\text{h}}f_h\left( x_0 \right) =\underset{1\le i\le k}{\max q_if_i\text{(}x_0\text{)}}
qhfh(x0)=1≤i≤kmaxqifi(x0)
则 x 0 x_0 x0 判给 G h G_h Gh
2.2.2 多元正态总体的Bayes判别法
在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别法。
(1)判别函数的导出
由前面的叙述可知,使用Bayes判别法作判别分析,首先要知道待判总体的先验概率和密度函数。对于先验概率,一般用样品的频率来代替。或者令先验概率 π ( θ ) = 1 \pi \left( \theta \right) =1 π(θ)=1 或相等,这时可以认为先验概率不起作用。
设正态分布密度函数为:
f i ( x ) = 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 f_i\left( x \right) =\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} fi(x)=(2π∣Σi∣)1/21e−2(x−μ(i))′Σi−1(x−μi)
q i f i ( x ) = q i 1 ( 2 π ∣ Σ i ∣ ) 1 / 2 e − ( x − μ ( i ) ) ′ Σ i − 1 ( x − μ i ) 2 q_if_i\left( x \right) =q_i\frac{1}{\left( 2\pi |\varSigma _i| \right) ^{1/2}}e^{-\frac{\left( x-\mu ^{\left( i \right)} \right) '\varSigma _i^{-1}\left( x-\mu ^i \right)}{2}} qifi(x)=qi(2π∣Σi∣)1/21e−2(x−μ(i))′Σi−1(x−μi)
上式两边取对数并去掉与 i 无关的项,则等价的判别函数为:
z
i
(
x
)
=
ln
(
q
i
f
i
(
x
)
)
=
ln
q
i
−
1
2
ln
|
Σ
i
∣
−
1
2
(
x
−
μ
(
i
)
)
′
Σ
i
−
1
(
x
−
μ
(
i
)
)
]
z_i\left( x \right) =\ln \left( q_if_i\left( \mathbf{x} \right) \right) =\ln q_i-\frac{1}{2}\ln\text{|}\Sigma _i|-\frac{1}{2}\left( x-\mu ^{\left( i \right)} \right) '\Sigma _{i}^{-1}\left( x-\mu ^{\left( i \right)} \right) \text{]}
zi(x)=ln(qifi(x))=lnqi−21ln|Σi∣−21(x−μ(i))′Σi−1(x−μ(i))]
问题转化为:
若
Z
h
(
x
)
=
max
1
≤
i
≤
k
[
Z
i
(
x
)
]
Z_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ Z_i\left( x \right) \right]
Zh(x)=1≤i≤kmax[Zi(x)]
则
x
x
x 判给
G
h
G_h
Gh 。
1、协方差相等,即 Σ 1 = Σ 2 = ⋯ = Σ k = Σ \varSigma _1=\varSigma _2=\cdots =\varSigma _k=\varSigma Σ1=Σ2=⋯=Σk=Σ
则判别函数退化为
z
i
(
x
)
=
ln
q
i
−
1
2
(
x
−
μ
(
i
)
)
′
Σ
−
1
(
x
−
μ
(
i
)
)
z_i\left( x \right) =\ln q_i-\frac{1}{2}\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}
zi(x)=lnqi−21(x−μ(i))′Σ−1(x−μ(i))
=
−
1
2
[
−
2
ln
q
i
+
(
x
−
μ
(
i
)
)
′
Σ
−
1
(
x
−
μ
(
i
)
)]
=-\frac{1}{2}\text{[}-2\ln q_i+\left( \mathbf{x}-\mathbf{\mu }^{\left( i \right)} \right) '\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)]}
=−21[−2lnqi+(x−μ(i))′Σ−1(x−μ(i))]
令
{ F i ( x ) = − 2 ln q i + ( x − μ ( i ) ) ′ Σ − 1 ( x − μ ( i ) ) P i ( x ) = − 2 ln q i − 2 μ ( i ) ′ Σ − 1 x + μ ( i ) ′ Σ − 1 μ ( i ) \left\{ \begin{array}{l} F_i\left( x \right) =-2\ln q_i+\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\mathbf{)'}\Sigma _{}^{-1}\mathbf{(x}-\mathbf{\mu }^{\left( i \right)}\text{)}\\ \\ P_i\left( x \right) =-2\ln q_i-2\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}\\ \end{array} \right. ⎩⎨⎧Fi(x)=−2lnqi+(x−μ(i))′Σ−1(x−μ(i))Pi(x)=−2lnqi−2μ(i)′Σ−1x+μ(i)′Σ−1μ(i)
问题转化为
若
P
h
(
x
)
=
min
1
≤
i
≤
k
[
P
i
(
x
)
]
P_h\left( x \right) =\underset{1\le i\le k}{\min}\left[ P_i\left( x \right) \right]
Ph(x)=1≤i≤kmin[Pi(x)]
则
x
x
x 判给
G
h
G_h
Gh
又由
P
i
(
x
)
=
−
2
(
ln
q
i
−
1
2
μ
(
i
)
Σ
−
1
μ
(
i
)
+
μ
(
i
)
Σ
−
1
x
)
P_i\left( x \right) =-2\left( \ln q_i-\frac{1}{2}\mu ^{\left( i \right)}\varSigma ^{-1}\mu ^{\left( i \right)}+\mu ^{\left( i \right)}\varSigma ^{-1}x \right)
Pi(x)=−2(lnqi−21μ(i)Σ−1μ(i)+μ(i)Σ−1x)
令
m
i
(
x
)
=
ln
q
i
−
1
2
μ
(
i
)
′
Σ
−
1
μ
(
i
)
+
μ
(
i
)
′
Σ
−
1
x
m_i\left( \mathbf{x} \right) =\ln q_i-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}
mi(x)=lnqi−21μ(i)′Σ−1μ(i)+μ(i)′Σ−1x
问题转化为
若
m
h
(
x
)
=
max
1
≤
i
≤
k
[
m
i
(
x
)
]
m_h\left( x \right) =\underset{1\le i\le k}{\max}\left[ m_i\left( x \right) \right]
mh(x)=1≤i≤kmax[mi(x)]
则
x
x
x 判给
G
h
G_h
Gh
当先验概率相等, q 1 = ⋯ = q k = 1 k q_1=\cdots =q_k=\frac{1}{k} q1=⋯=qk=k1
有
m
i
(
x
)
=
−
1
2
μ
(
i
)
′
Σ
−
1
μ
(
i
)
+
μ
(
i
)
′
Σ
−
1
x
m_i\left( \mathbf{x} \right) =-\frac{1}{2}\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{\mu }^{\left( i \right)}+\mathbf{\mu }^{\left( i \right) '}\Sigma ^{-1}\mathbf{x}
mi(x)=−21μ(i)′Σ−1μ(i)+μ(i)′Σ−1x
完全成为距离判别法 。
2.3 Fisher判别法
2.3.1 Fisher判别的基本思想
Fisher(费歇)判别的基本思想是投影,将k组m维数据投影到某一个方向,使得投影后组与组之间尽可能地分开,而衡量组与组之间是否分开的方法借助于一元方差分析的思想,利用方差分析的思想来导出判别函数,这个函数可以是线性的,也可以是一般的函数。因线性判别函数在实际应用中最方便,本节仅讨论线性判别函数的导出.
该判别方法对总体的分布不做任何要求。
从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数:
Y
=
C
1
X
1
+
C
2
X
2
+
⋯
+
C
p
X
p
Y=C_1X_1+C_2X_2+\cdots +C_pX_p
Y=C1X1+C2X2+⋯+CpXp
其中系数
C
1
,
C
2
,
⋯
,
C
p
C_1,C_2,\cdots ,C_p
C1,C2,⋯,Cp 确定的原则是使两组间的组间离差最大,而每个组的组内离差最小。当建立了判别式以后,对一个新的样品值,将他的P个指标值代入判别式中求出Y值,然后与某个临界值比较,就可以将该样品归某类。
假设可以得到一个线性判别函数:
y
=
c
1
x
1
+
c
2
x
2
+
⋯
+
c
p
x
p
y=c_1x_1+c_2x_2+\cdots +c_px_p
y=c1x1+c2x2+⋯+cpxp
可以把两个总体的样品代入上面的判别式
y
i
(
1
)
=
c
1
x
i
1
(
1
)
+
c
2
x
i
2
(
1
)
+
⋯
+
c
p
x
i
p
(
1
)
y_{i}^{\left( 1 \right)}=c_1x_{i1}^{\left( 1 \right)}+c_2x_{i2}^{\left( 1 \right)}+\cdots +c_px_{ip}^{\left( 1 \right)}
yi(1)=c1xi1(1)+c2xi2(1)+⋯+cpxip(1)
y
i
(
2
)
=
c
1
x
i
1
(
2
)
+
c
2
x
i
2
(
2
)
+
⋯
+
c
p
x
i
p
(
2
)
y_{i}^{\left( 2 \right)}=c_1x_{i1}^{\left( 2 \right)}+c_2x_{i2}^{\left( 2 \right)}+\cdots +c_px_{ip}^{\left( 2 \right)}
yi(2)=c1xi1(2)+c2xi2(2)+⋯+cpxip(2)
分别对上面两式左右相加,再除以样品个数,可得两个总体的重心:
{
y
ˉ
(
1
)
=
∑
k
=
1
p
c
k
x
ˉ
k
(
1
)
y
ˉ
(
2
)
=
∑
k
=
1
p
c
k
x
ˉ
k
(
2
)
\left\{ \begin{array}{l} \bar{y}^{\left( 1 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 1 \right)}}\\ \\ \bar{y}^{\left( 2 \right)}=\sum\limits_{k=1}^p{c_k\bar{x}_{k}^{\left( 2 \right)}}\\ \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧yˉ(1)=k=1∑pckxˉk(1)yˉ(2)=k=1∑pckxˉk(2)
最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。
组间离差平方和:
(
Y
ˉ
(
1
)
−
Y
ˉ
)
2
+
(
Y
ˉ
(
2
)
−
Y
ˉ
)
2
=
(
Y
ˉ
(
1
)
−
Y
ˉ
(
1
)
+
Y
ˉ
(
2
)
2
)
2
+
(
Y
ˉ
(
2
)
−
Y
ˉ
(
1
)
+
Y
ˉ
(
2
)
2
)
2
\left( \bar{Y}^{\left( 1 \right)}-\bar{Y} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\bar{Y} \right) ^2=\left( \bar{Y}^{\left( 1 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2+\left( \bar{Y}^{\left( 2 \right)}-\frac{\bar{Y}^{\left( 1 \right)}+\bar{Y}^{\left( 2 \right)}}{2} \right) ^2
(Yˉ(1)−Yˉ)2+(Yˉ(2)−Yˉ)2=(Yˉ(1)−2Yˉ(1)+Yˉ(2))2+(Yˉ(2)−2Yˉ(1)+Yˉ(2))2
= 1 4 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 + 1 4 ( Y ˉ ( 2 ) − Y ˉ ( 1 ) ) 2 = 1 2 ( Y ˉ ( 1 ) − Y ˉ ( 2 ) ) 2 = 1 2 ( c ′ X ˉ ( 1 ) − c ′ X ˉ ( 2 ) ) 2 =\frac{1}{4}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2+\frac{1}{4}\left( \bar{Y}^{\left( 2 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2=\frac{1}{2}\left( \bar{Y}^{\left( 1 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2=\frac{1}{2}\left( \mathbf{c'}\bar{X}^{\left( 1 \right)}-\mathbf{c'}\bar{X}^{\left( 2 \right)} \right) ^2 =41(Yˉ(1)−Yˉ(2))2+41(Yˉ(2)−Yˉ(1))2=21(Yˉ(1)−Yˉ(2))2=21(c′Xˉ(1)−c′Xˉ(2))2
总体内部的方差和:
E
(
Y
(
1
)
−
Y
ˉ
(
1
)
)
2
+
E
(
Y
(
2
)
−
Y
ˉ
(
2
)
)
2
E\left( Y^{\left( 1 \right)}-\bar{Y}^{\left( 1 \right)} \right) ^2+E\left( Y^{\left( 2 \right)}-\bar{Y}^{\left( 2 \right)} \right) ^2
E(Y(1)−Yˉ(1))2+E(Y(2)−Yˉ(2))2
I
=
组间离差平方和
组内方差和
I=\frac{\text{组间离差平方和}}{\text{组内方差和}}
I=组内方差和组间离差平方和
I
=
1
2
c
′
(
X
ˉ
(
1
)
−
X
ˉ
(
2
)
)
(
X
ˉ
(
1
)
−
X
ˉ
(
2
)
)
′
c
c
′
Σ
c
I=\frac{\frac{1}{2}\mathbf{c'}\left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) \left( \bar{X}^{\left( 1 \right)}-\bar{X}^{\left( 2 \right)} \right) '\mathbf{c}}{\mathbf{c'}\varSigma \mathbf{c}}
I=c′Σc21c′(Xˉ(1)−Xˉ(2))(Xˉ(1)−Xˉ(2))′c
I 最小时判别 函数最好
判别准则 :
定义临界点为:
y
0
=
n
1
y
ˉ
(
1
)
+
n
2
y
ˉ
(
2
)
n
1
+
n
2
y_0=\frac{n_1\bar{y}^{\left( 1 \right)}+n_2\bar{y}^{\left( 2 \right)}}{n_1+n_2}
y0=n1+n2n1yˉ(1)+n2yˉ(2)
不妨假设:
y
ˉ
(
1
)
>
y
ˉ
(
2
)
\bar{y}^{\left( 1 \right)}>\bar{y}^{\left( 2 \right)}
yˉ(1)>yˉ(2)
如果由原始数据 y 求得判别函数得分为 Y*,对与一个样本代入判别函数中,若 Y*>
Y
0
Y_0
Y0,则判给G1,否则判给G2。