设某一类的样本的类条件概率服从多元正态分布,即
P
(
x
∣
ω
i
)
∼
N
(
μ
i
,
Σ
i
)
(
i
=
1
,
2
,
…
,
c
)
(1)
P(\mathbf{x}|\omega_i) \sim \mathcal{N}(\mathbf{\mu_i}, \mathbf{\Sigma_i}) \quad (i=1,2,\dots,c) \tag{1}
P(x∣ωi)∼N(μi,Σi)(i=1,2,…,c)(1)
定义该分布下的判别函数,判别函数的定义见2.1节,
g
i
(
x
)
=
ln
P
(
x
∣
ω
i
)
P
(
ω
i
)
g_i(\mathbf{x}) = \ln P(\mathbf{x}|\omega_i)P(\omega_i)
gi(x)=lnP(x∣ωi)P(ωi)
=
>
=
ln
P
(
x
∣
ω
i
)
+
ln
P
(
ω
i
)
(2)
=> \quad = \ln P(\mathbf{x}|\omega_i) + \ln P(\omega_i) \tag{2}
=>=lnP(x∣ωi)+lnP(ωi)(2)
注:这里专门采用了对数式判别函数,利于计算。
由于该类条件概率服从多元正态分布,所以可得:
P
(
x
∣
ω
i
)
=
1
(
2
π
)
d
/
2
∣
Σ
i
∣
1
/
2
e
−
1
2
(
x
−
μ
i
)
T
Σ
i
−
1
(
x
−
μ
i
)
P(\mathbf{x}|\omega_i) = \frac{1}{(2\pi)^{d/2}|\mathbf{\Sigma_i}|^{1/2}}e^{\frac{-1}{2}}(\mathbf{x}-\mathbf{\mu_i})^T\mathbf{\Sigma}^{-1}_i(\mathbf{x}-\mathbf{\mu_i})
P(x∣ωi)=(2π)d/2∣Σi∣1/21e2−1(x−μi)TΣi−1(x−μi)
判别函数:
=
>
g
i
(
x
)
=
−
1
2
(
x
−
μ
i
)
T
Σ
−
1
(
x
−
μ
i
)
−
d
2
ln
2
π
−
1
2
ln
∣
Σ
i
∣
+
ln
P
(
ω
i
)
(3)
=> \quad g_i(\mathbf{x}) = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_i})^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu_i}) - \frac{d}{2}\ln2\pi - \frac{1}{2}\ln|\mathbf{\Sigma}_i|+\ln P(\omega_i) \tag{3}
=>gi(x)=−21(x−μi)TΣ−1(x−μi)−2dln2π−21ln∣Σi∣+lnP(ωi)(3)
定义第i类和第j类之间的决策面方程:
g
i
(
x
)
=
g
j
(
x
)
(4)
g_i(\mathbf{x}) = g_j(\mathbf{x}) \tag{4}
gi(x)=gj(x)(4)
将式(3)代入式(4)的方程中,可得:
−
1
2
[
(
x
−
μ
i
)
T
Σ
i
−
1
(
x
−
μ
i
)
−
(
x
−
μ
j
)
T
Σ
−
1
(
x
−
μ
j
)
]
−
1
2
ln
∣
Σ
i
∣
∣
Σ
j
∣
+
ln
P
(
ω
i
)
P
(
ω
j
)
=
0
(5)
-\frac{1}{2}[(\mathbf{x}-\mathbf{\mu_i})^T\mathbf{\Sigma}_i^{-1}(\mathbf{x}-\mathbf{\mu_i})-(\mathbf{x}-\mathbf{\mu}_j)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}_j)] - \frac{1}{2}\ln\frac{|\mathbf{\Sigma}_i|}{|\mathbf{\Sigma}_j|}+\ln \frac{P(\omega_i)}{P(\omega_j)} = 0 \tag{5}
−21[(x−μi)TΣi−1(x−μi)−(x−μj)TΣ−1(x−μj)]−21ln∣Σj∣∣Σi∣+lnP(ωj)P(ωi)=0(5)
现在我们来考虑各类协方差矩阵以及类先验概率在不同情况下,判别函数的变化。
一.第一种情况: Σ i = σ 2 I , i = 1 , 2 , … , c \mathbf{\Sigma}_i=\sigma^2I, i=1,2,\dots,c Σi=σ2I,i=1,2,…,c
I I I是dxd维的单位矩阵,这种情况中每类的协方差矩阵都相等,而且类内各特征间相互独立(每个类别里样本的各特征间的协方差为0),每个特征具有相等的方差 σ 2 \sigma^2 σ2。下面进一步针对类别先验概率 P ( ω ) P(\omega) P(ω)再分两种情况:
(1) 先验概率
P
(
ω
i
)
=
P
(
ω
j
)
P(\omega_i) = P(\omega_j)
P(ωi)=P(ωj)不相等
可知
∣
Σ
i
∣
=
σ
2
d
(6)
|\mathbf{\Sigma}_i|=\sigma^{2d} \tag{6}
∣Σi∣=σ2d(6)
Σ
i
−
1
=
1
σ
2
I
(7)
\mathbf{\Sigma}_i^{-1} = \frac{1}{\sigma^2}I \tag{7}
Σi−1=σ21I(7)
将上述两式代入式(3)的判别函数中,得:
g
i
(
x
)
=
−
(
x
−
μ
i
)
T
(
x
−
μ
i
)
2
σ
2
−
d
2
ln
2
π
−
d
ln
σ
+
ln
P
(
ω
i
)
(8)
g_i(\mathbf{x}) = -\frac{(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2} - \frac{d}{2}\ln2\pi - d\ln\sigma+\ln P(\omega_i) \tag{8}
gi(x)=−2σ2(x−μi)T(x−μi)−2dln2π−dlnσ+lnP(ωi)(8)
其中
−
d
2
ln
2
π
-\frac{d}{2}\ln2\pi
−2dln2π和
−
d
ln
σ
-d\ln\sigma
−dlnσ和类别无关,可忽略
=
>
g
i
(
x
)
=
−
(
x
−
μ
i
)
T
(
x
−
μ
i
)
2
σ
2
+
ln
P
(
ω
i
)
(9)
=> \quad g_i(\mathbf{x}) = -\frac{(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2} +\ln P(\omega_i) \tag{9}
=>gi(x)=−2σ2(x−μi)T(x−μi)+lnP(ωi)(9)
其中
(
x
−
μ
i
)
T
(
x
−
μ
i
)
=
∣
∣
x
−
μ
i
∣
∣
2
=
∑
j
=
1
d
(
x
j
−
μ
i
j
)
2
,
i
=
1
,
…
,
c
(10)
(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})=||\mathbf{x}-\mathbf{\mu}_i||^2=\sum_{j=1}^d(x_j-\mu_{ij})^2,\quad i=1,\dots,c \tag{10}
(x−μi)T(x−μi)=∣∣x−μi∣∣2=j=1∑d(xj−μij)2,i=1,…,c(10)
这是
x
\mathbf{x}
x到类
ω
i
\omega_i
ωi的样本均值向量
μ
i
\mathbf{\mu}_i
μi的欧氏距离的平方。
(2)
P
(
ω
i
)
=
P
(
ω
j
)
P(\omega_i)=P(\omega_j)
P(ωi)=P(ωj)
现在每个类别的先验概率都相等,那么对判别函数式(9)就没什么影响了,可以忽略这一项,则
=
>
g
i
(
x
)
=
−
(
x
−
μ
i
)
T
(
x
−
μ
i
)
2
σ
2
=
−
1
2
σ
2
∣
∣
x
−
μ
i
∣
∣
2
(11)
=> \quad g_i(\mathbf{x}) = -\frac{(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2}=-\frac{1}{2\sigma^2}||\mathbf{x}-\mathbf{\mu}_i||^2 \tag{11}
=>gi(x)=−2σ2(x−μi)T(x−μi)=−2σ21∣∣x−μi∣∣2(11)
根据判别准则,我们要选择使判别函数最大的类别,即
max
g
i
(
x
)
=
>
x
∈
ω
i
\max g_i(\mathbf{x}) => \mathbf{x}\in \omega_i
maxgi(x)=>x∈ωi,根据式(11)可得最大化
g
i
(
x
)
g_i(\mathbf{x})
gi(x)就是最小化样本到各类均值向量的距离
min
∣
∣
x
−
μ
i
∣
∣
2
\min ||\mathbf{x}-\mathbf{\mu}_i||^2
min∣∣x−μi∣∣2,这种分类器称为最小距离分类器。如图
除此之外,对于式(9),还可以继续化简,得:
=
>
g
i
(
x
)
=
−
(
x
T
−
μ
i
T
)
(
x
−
μ
i
)
2
σ
2
+
ln
P
(
ω
i
)
(12)
=> \quad g_i(\mathbf{x}) = -\frac{(\mathbf{x}^T-\mathbf{\mu_i}^T)(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2} +\ln P(\omega_i) \tag{12}
=>gi(x)=−2σ2(xT−μiT)(x−μi)+lnP(ωi)(12)
=
>
=
−
1
2
σ
2
(
x
T
x
−
x
T
μ
i
−
μ
i
T
x
+
μ
i
T
μ
i
)
+
ln
P
(
ω
i
)
(13)
=> \ = -\frac{1}{2\sigma^2}(\mathbf{x}^T\mathbf{x}-\mathbf{x}^T\mathbf{\mu}_i-\mathbf{\mu}_i^T\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\mu}_i) +\ln P(\omega_i) \tag{13}
=> =−2σ21(xTx−xTμi−μiTx+μiTμi)+lnP(ωi)(13)
其中
x
T
x
\mathbf{x}^T\mathbf{x}
xTx与类别i无关,且
x
T
μ
i
=
μ
i
T
x
\mathbf{x}^T\mathbf{\mu}_i=\mathbf{\mu}_i^T\mathbf{x}
xTμi=μiTx, 则
=
>
=
−
1
2
σ
2
(
μ
i
T
μ
i
−
2
μ
i
T
x
)
+
ln
P
(
ω
i
)
(14)
=> \quad\ = -\frac{1}{2\sigma^2}(\mathbf{\mu}_i^T\mathbf{\mu}_i-2\mathbf{\mu}_i^T\mathbf{x}) +\ln P(\omega_i) \tag{14}
=> =−2σ21(μiTμi−2μiTx)+lnP(ωi)(14)
=
>
=
1
σ
2
μ
i
T
x
−
1
2
σ
2
μ
i
T
μ
i
+
ln
P
(
ω
i
)
(15)
=> \quad = \frac{1}{\sigma^2}\mathbf{\mu}_i^T\mathbf{x} - \frac{1}{2\sigma^2}\mathbf{\mu}_i^T\mathbf{\mu}_i + \ln P(\omega_i) \tag{15}
=>=σ21μiTx−2σ21μiTμi+lnP(ωi)(15)
=
>
=
w
i
T
x
+
ω
i
0
(16)
=> \quad = \mathbf{w}_i^T\mathbf{x} + \omega_{i0} \tag{16}
=>=wiTx+ωi0(16)
可见我们得到了线性分类器,其中:
w
i
=
1
σ
2
μ
i
ω
i
0
=
−
1
2
σ
2
μ
i
T
μ
i
+
ln
P
(
ω
i
)
\mathbf{w}_i = \frac{1}{\sigma^2}\mathbf{\mu}_i \quad \omega_{i0}=- \frac{1}{2\sigma^2}\mathbf{\mu}_i^T\mathbf{\mu}_i + \ln P(\omega_i)
wi=σ21μiωi0=−2σ21μiTμi+lnP(ωi)。
决策规则就是要求对某个待分类的样本
x
\mathbf{x}
x, 分别计算判别函数
g
i
(
x
)
,
i
=
1
,
…
,
c
g_i(\mathbf{x}), \quad i=1,\dots, c
gi(x),i=1,…,c,
若
g
k
(
x
)
=
max
i
g
i
(
x
)
,
则
x
∈
ω
i
(17)
若g_k(\mathbf{x}) = \max_i g_i(\mathbf{x}), \quad 则\mathbf{x}\in\omega_i \tag{17}
若gk(x)=imaxgi(x),则x∈ωi(17)
线性分类器的决策面是由线性方程
g
i
(
x
)
=
g
j
(
x
)
g_i(\mathbf{x}) = g_j(\mathbf{x})
gi(x)=gj(x)所确定的一个超平面。将各自的判别函数代入该方程,我们可以得到:
(
μ
i
−
μ
j
)
T
[
x
−
[
μ
i
+
μ
j
2
−
σ
2
(
μ
i
−
μ
j
)
T
ln
P
(
ω
i
)
P
(
ω
j
)
]
]
=
0
(18)
(\mathbf{\mu}_i-\mathbf{\mu}_j)^T[\mathbf{x}-[\frac{\mathbf{\mu}_i+\mathbf{\mu}_j}{2}-\frac{\sigma^2}{(\mathbf{\mu}_i-\mathbf{\mu}_j)^T}\ln\frac{P(\omega_i)}{P(\omega_j)}]] = 0 \tag{18}
(μi−μj)T[x−[2μi+μj−(μi−μj)Tσ2lnP(ωj)P(ωi)]]=0(18)
上式可化为,
w
T
(
x
−
x
0
)
=
0
(19)
\mathbf{w}^T(\mathbf{x}-\mathbf{x}_0) = 0 \tag{19}
wT(x−x0)=0(19)
其中
w
=
μ
i
−
μ
j
(20)
\quad \mathbf{w} = \mathbf{\mu}_i-\mathbf{\mu}_j \tag{20}
w=μi−μj(20)
x
0
=
σ
2
∣
∣
μ
i
−
μ
j
∣
∣
2
ln
P
(
ω
i
)
P
(
ω
j
)
(
μ
i
−
μ
j
)
(21)
\mathbf{x}_0 = \frac{\sigma^2}{||\mathbf{\mu}_i-\mathbf{\mu}_j||^2}\ln\frac{P(\omega_i)}{P(\omega_j)}(\mathbf{\mu}_i-\mathbf{\mu}_j) \tag{21}
x0=∣∣μi−μj∣∣2σ2lnP(ωj)P(ωi)(μi−μj)(21)
满足上式
x
\mathbf{x}
x的轨迹构成了
ω
i
\omega_i
ωi与
ω
j
\omega_j
ωj类间的决策面,它是一个超平面,当
P
(
ω
i
)
=
P
(
ω
j
)
P(\omega_i)=P(\omega_j)
P(ωi)=P(ωj)时,
x
0
=
0
\mathbf{x}_0=0
x0=0,此时超平面通过
μ
i
\mathbf{\mu}_i
μi与
μ
j
\mathbf{\mu}_j
μj连线中点,并与连线正交。如图:
可知这个决策面的方向是由 w \mathbf{w} w决定的,位置由 x 0 \mathbf{x}_0 x0决定,所以决策面与先验概率相等时的决策面平行,当先验不相等时,向先验概率小的方向偏移,即先验概率大的一类要占据更大的决策空间。
二. 第二种情况: Σ i = Σ \mathbf{\Sigma}_i = \mathbf{\Sigma} Σi=Σ
此时,各类别的协方差矩阵都相等,但是类内各样本的特征并不独立。判别函数为:
g
i
(
x
)
=
−
1
2
(
x
−
μ
i
)
T
Σ
−
1
(
x
−
μ
i
)
+
ln
P
(
ω
i
)
(22)
g_i(\mathbf{x}) = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu}_i)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}_i) + \ln P(\omega_i) \tag{22}
gi(x)=−21(x−μi)TΣ−1(x−μi)+lnP(ωi)(22)
若c类先验概率都相等,则判别函数可进一步化简为:
g
i
(
x
)
=
γ
2
=
(
x
−
μ
i
)
T
Σ
−
1
(
x
−
μ
i
)
(23)
g_i(\mathbf{x}) = \gamma^2=(\mathbf{x}-\mathbf{\mu}_i)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}_i) \tag{23}
gi(x)=γ2=(x−μi)TΣ−1(x−μi)(23)
这时决策规则为:为了对样本
x
\mathbf{x}
x进行分类,只要计算出
x
\mathbf{x}
x到每类的均值向量
μ
i
\mathbf{\mu}_i
μi的Mahalanobis马氏距离的平方,最后把
x
\mathbf{x}
x归于
γ
2
\gamma^2
γ2最小的类别。将式(22)进一步展开:
g
i
(
x
)
=
−
1
2
(
x
T
Σ
−
1
x
−
x
T
Σ
−
1
μ
i
−
μ
i
T
Σ
−
1
x
+
μ
i
T
Σ
−
1
μ
i
)
+
ln
P
(
ω
i
)
(24)
g_i(\mathbf{x}) = -\frac{1}{2}(\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}-\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i-\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i) + \ln P(\omega_i) \tag{24}
gi(x)=−21(xTΣ−1x−xTΣ−1μi−μiTΣ−1x+μiTΣ−1μi)+lnP(ωi)(24)
=
>
=
−
1
2
(
x
T
Σ
−
1
x
−
2
μ
i
T
Σ
−
1
T
x
+
μ
i
T
Σ
−
1
μ
i
)
+
ln
P
(
ω
i
)
(25)
=>\quad = -\frac{1}{2}(\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}-2\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1T}\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i) + \ln P(\omega_i) \tag{25}
=>=−21(xTΣ−1x−2μiTΣ−1Tx+μiTΣ−1μi)+lnP(ωi)(25)
=
>
=
−
1
2
x
T
Σ
−
1
x
+
μ
i
T
Σ
−
1
T
x
−
1
2
μ
i
T
Σ
−
1
μ
i
+
ln
P
(
ω
i
)
(26)
=>\quad = -\frac{1}{2}\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1T}\mathbf{x}-\frac{1}{2}\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i + \ln P(\omega_i) \tag{26}
=>=−21xTΣ−1x+μiTΣ−1Tx−21μiTΣ−1μi+lnP(ωi)(26)
忽略其中与类别i无关的
x
T
Σ
−
1
x
\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}
xTΣ−1x项
=
>
=
μ
i
T
Σ
−
1
T
x
−
1
2
μ
i
T
Σ
−
1
μ
i
+
ln
P
(
ω
i
)
(27)
=> \quad = \mathbf{\mu}_i^T\mathbf{\Sigma}^{-1T}\mathbf{x}-\frac{1}{2}\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i + \ln P(\omega_i) \tag{27}
=>=μiTΣ−1Tx−21μiTΣ−1μi+lnP(ωi)(27)
=
>
=
w
i
T
x
+
ω
i
0
(28)
=> \quad =\mathbf{w}_i^T\mathbf{x}+\omega_{i0} \tag{28}
=>=wiTx+ωi0(28)
其中
w
i
=
Σ
−
1
μ
i
ω
i
0
=
−
1
2
μ
i
T
Σ
−
1
μ
i
+
ln
P
(
ω
i
)
(29)
\mathbf{w}_i = \mathbf{\Sigma}^{-1}\mathbf{\mu}_i \\ \omega_{i0} = -\frac{1}{2}\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i + \ln P(\omega_i) \tag{29}
wi=Σ−1μiωi0=−21μiTΣ−1μi+lnP(ωi)(29)
可见这种情况依然是
x
\mathbf{x}
x的线性判别函数,因此决策面仍是一个超平面,若决策域
R
i
R_i
Ri与
R
j
R_j
Rj相邻,则决策面方程为:
g
i
(
x
)
=
g
j
(
x
)
g_i(\mathbf{x})=g_j(\mathbf{x})
gi(x)=gj(x),可化简为
w
T
(
x
−
x
0
)
=
0
(30)
\mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0\tag{30}
wT(x−x0)=0(30)
其中
w
=
Σ
−
1
(
μ
i
−
μ
j
)
(31)
\mathbf{w}=\mathbf{\Sigma}^{-1}(\mathbf{\mu}_i-\mathbf{\mu}_j) \tag{31}
w=Σ−1(μi−μj)(31)
x
0
=
1
2
(
μ
i
+
μ
j
)
−
1
(
μ
i
−
μ
j
)
T
Σ
−
1
(
μ
i
−
μ
j
)
ln
P
(
ω
i
)
P
(
ω
j
)
(
μ
i
−
μ
j
)
(32)
\mathbf{x}_0 = \frac{1}{2}(\mathbf{\mu}_i+\mathbf{\mu}_j)-\frac{1}{(\mathbf{\mu}_i-\mathbf{\mu}_j)^T\mathbf{\Sigma}^{-1}(\mathbf{\mu}_i-\mathbf{\mu}_j)}\ln \frac{P(\omega_i)}{P(\omega_j)}(\mathbf{\mu}_i-\mathbf{\mu}_j) \tag{32}
x0=21(μi+μj)−(μi−μj)TΣ−1(μi−μj)1lnP(ωj)P(ωi)(μi−μj)(32)
对比式(20)和(21),差别就在于
Σ
i
\mathbf{\Sigma}_i
Σi的不同。决策面为满足上式(30)的
x
\mathbf{x}
x的轨迹构成了
ω
i
\omega_i
ωi与
ω
j
\omega_j
ωj类之间的决策面,决策面过
x
0
\mathbf{x}_0
x0,当
P
(
ω
i
)
=
P
(
ω
j
)
P(\omega_i)=P(\omega_j)
P(ωi)=P(ωj)时,该超平面过
μ
i
+
μ
j
2
\frac{\mathbf{\mu}_i+\mathbf{\mu}_j}{2}
2μi+μj。如图:
这里超平面不与两均值向量的连线正交,因为 w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\mathbf{\Sigma}^{-1}(\mathbf{\mu}_i-\mathbf{\mu}_j) w=Σ−1(μi−μj),除非 Σ = I \mathbf{\Sigma}=I Σ=I
总结
-
在多元正态分布的条件下,基于最小错误率贝叶斯决策只要能做到各类别的协方差矩阵是一样的,那么无论先验概率是否相等,都可以用线性分界面实现。
-
最小(欧氏)距离分类器则要求各正态分布的协方差矩阵为单位矩阵,且各类别的先验概率相等。
三. 第三种情况各类的协方差矩阵互不相等
此时判别函数为 x \mathbf{x} x的二次型,表示超二次曲面。