模式识别——统计决策方法——正态分布时的统计决策
正态分布性质回顾
单变量正态分布概率密度函数定义为
p ( x ) = 1 2 x σ e x p { − 1 2 ( x − μ σ ) 2 } p(x)=\frac{1}{\sqrt{2x}\sigma}exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2\} p(x)=2xσ1exp{−21(σx−μ)2}
多元正态分布的概率密度函数定义为
p ( x ) = 1 ( 2 π ) d 2 ∣ ∑ ∣ 1 2 e x p { − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) } 其中 μ = E { x } , ∑ = E { ( x − μ ) ( x − μ ) T } p(x)=\frac{1}{(2\pi)^{\frac{d}{2}}\vert{{\sum\rvert}}^{\frac{1}{2}}}exp\{-\frac{1}{2}(x-\mu)^{T}{\sum}^{-1}(x-\mu)\}\\ 其中 \mu=E\{x\}, \sum=E\{(x-\mu)(x-\mu)^T\} p(x)=(2π)2d∣∑∣211exp{−21(x−μ)T∑−1(x−μ)}其中μ=E{x},∑=E{(x−μ)(x−μ)T}
正态分布下的最小错误率贝叶斯决策
根据前面最小错误率贝叶斯判别函数和决策面的有关公式,在正态分布下的概率
p
(
x
∣
w
1
)
∽
(
μ
,
∑
)
p(x|w_1)\backsim(\mu, \sum)
p(x∣w1)∽(μ,∑)我们可以得到新的判别函数(即正态分布下的后验概率):
g
i
(
x
)
=
−
1
2
(
x
−
μ
)
T
∑
i
−
1
(
x
−
μ
)
−
d
2
l
n
2
π
−
1
2
l
n
∣
∑
i
∣
+
l
n
P
(
w
i
)
g_i(x)=-\frac{1}{2}(x-\mu)^T{\sum_{i}}^{-1}(x-\mu)-\frac{d}{2}ln2\pi-\frac{1}{2}ln\vert{\sum}_{i}\rvert+lnP(w_i)
gi(x)=−21(x−μ)Ti∑−1(x−μ)−2dln2π−21ln∣∑i∣+lnP(wi)
决策面方程为
g
i
(
x
)
=
g
j
(
x
)
g_i(x)=g_j(x)
gi(x)=gj(x)
即
−
1
2
[
(
x
−
μ
i
)
T
∑
i
−
1
(
x
−
μ
i
)
−
(
x
−
μ
j
)
T
∑
j
−
1
(
x
−
μ
j
)
]
−
1
2
l
n
∣
∑
i
∣
∣
∑
j
∣
+
l
n
P
(
w
i
)
P
(
w
i
)
=
0
-\frac{1}{2}[(x-\mu_i)^T{\sum}_{i}^{-1}(x-\mu_i)-(x-\mu_j)^T{\sum}_{j}^{-1}(x-\mu_j)]-\frac{1}{2}ln\frac{\vert{\sum}_{i}\rvert}{\vert{\sum}_{j}\rvert}+ln\frac{P(w_i)}{P(w_i)}=0
−21[(x−μi)T∑i−1(x−μi)−(x−μj)T∑j−1(x−μj)]−21ln∣∑j∣∣∑i∣+lnP(wi)P(wi)=0
特殊情况1: ∑ i = σ 2 I , i = 1 , 2 , . . . , c {\sum}_{i}=\sigma^2I,i=1,2,...,c ∑i=σ2I,i=1,2,...,c
每类的协方差矩阵都相等,类内各特征间相互独立,且具有相等的方差
此时有:
g
i
(
x
)
=
−
1
2
σ
2
(
x
−
μ
i
)
T
(
x
−
μ
i
)
+
l
n
P
(
w
i
)
g_i(x)=-\frac{1}{2\sigma^2}(x-\mu_i)^T(x-\mu_i)+lnP(w_i)
gi(x)=−2σ21(x−μi)T(x−μi)+lnP(wi)
因为
x
T
x
x^Tx
xTx项与i无关,可以忽略,则判别函数为
g
i
(
x
)
=
−
1
2
σ
2
(
−
2
μ
i
T
x
+
μ
i
T
μ
i
)
+
l
n
P
(
w
i
)
=
μ
i
T
σ
2
x
−
1
2
σ
2
μ
i
T
μ
i
+
l
n
P
(
w
i
)
)
=
w
T
x
+
w
i
0
\begin{aligned} g_i(x)&=-\frac{1}{2\sigma^2}(-2\mu_i^Tx+\mu_i^T\mu_i)+lnP(w_i)\\ &=\frac{\mu_i^T}{\sigma^2}x-\frac{1}{2\sigma^2}\mu_i^T \mu_i+lnP(w_i))\\ &=w^Tx+w_{i0} \end{aligned}
gi(x)=−2σ21(−2μiTx+μiTμi)+lnP(wi)=σ2μiTx−2σ21μiTμi+lnP(wi))=wTx+wi0
其中
w
=
μ
i
σ
2
,
w
i
0
=
−
1
2
σ
2
μ
i
T
μ
i
+
l
n
P
(
w
i
)
)
w=\frac{\mu_i}{\sigma^2},w_{i0}=-\frac{1}{2\sigma^2}\mu_i^T \mu_i+lnP(w_i))
w=σ2μi,wi0=−2σ21μiTμi+lnP(wi))
决策规则:
若
g
i
(
x
)
=
m
a
x
i
g
i
(
x
)
,则
x
∈
w
i
若g_i(x)=max_ig_i(x),则x\in{w_i}
若gi(x)=maxigi(x),则x∈wi
由该式可以看出,判别函数
g
i
(
x
)
g_i(x)
gi(x)是x的线性函数,因此称为线性分类器
特殊情况2: ∑ i = ∑ , i = 1 , 2 , . . . , c {\sum}_{i}=\sum,i=1,2,...,c ∑i=∑,i=1,2,...,c
与情况1类似,各类的协方差矩阵都相同,但是各特征间不一定相互独立。从几何上看,相当于各类样本集中于以该均值 μ i \mu_i μi为中心的同样大小和形状的超椭球内
其判别函数为
g
i
(
x
)
=
−
1
∑
(
−
2
μ
i
T
x
+
μ
i
T
μ
i
)
+
l
n
P
(
w
i
)
=
μ
i
T
∑
x
−
1
2
∑
μ
i
T
μ
i
+
l
n
P
(
w
i
)
)
=
w
T
x
+
w
i
0
\begin{aligned} g_i(x)&=-\frac{1}{\sum}(-2\mu_i^Tx+\mu_i^T\mu_i)+lnP(w_i)\\ &=\frac{\mu_i^T}{\sum}x-\frac{1}{2\sum}\mu_i^T \mu_i+lnP(w_i))\\ &=w^Tx+w_{i0} \end{aligned}
gi(x)=−∑1(−2μiTx+μiTμi)+lnP(wi)=∑μiTx−2∑1μiTμi+lnP(wi))=wTx+wi0
其中
w
=
μ
i
∑
,
w
i
0
=
−
1
2
∑
μ
i
T
μ
i
+
l
n
P
(
w
i
)
)
w=\frac{\mu_i}{\sum},w_{i0}=-\frac{1}{2\sum}\mu_i^T \mu_i+lnP(w_i))
w=∑μi,wi0=−2∑1μiTμi+lnP(wi))
特殊情况3:各类的协方差不相等
这是多元正态分布的一般情况,判别函数为:
g
i
(
x
)
=
−
1
2
(
x
−
μ
)
T
∑
i
−
1
(
x
−
μ
)
−
1
2
l
n
∣
∑
i
∣
+
l
n
P
(
w
i
)
=
x
T
W
i
x
+
w
i
x
+
w
i
0
\begin{aligned} g_i(x)&=-\frac{1}{2}(x-\mu)^T{\sum_{i}}^{-1}(x-\mu)-\frac{1}{2}ln\vert{\sum}_{i}\rvert+lnP(w_i)\\ &=x^TW_ix+w_ix+w_{i0} \end{aligned}
gi(x)=−21(x−μ)Ti∑−1(x−μ)−21ln∣∑i∣+lnP(wi)=xTWix+wix+wi0
其中
W
i
=
−
1
2
∑
−
1
w
i
=
∑
i
−
1
μ
i
w
i
0
=
−
1
2
μ
i
T
∑
i
−
1
μ
i
−
1
2
l
n
∣
∑
i
∣
+
l
n
P
(
w
i
)
W_i=-\frac{1}{2}\sum^{-1}\\ w_i=\sum_i^{-1}\mu_i\\w_{i0}=-\frac{1}{2}\mu_i^T\sum_i^{-1}\mu_i-\frac{1}{2}ln\vert{\sum}_{i}\rvert+lnP(w_i)
Wi=−21∑−1wi=i∑−1μiwi0=−21μiTi∑−1μi−21ln∣∑i∣+lnP(wi)
此时判别函数表示为x的二次型,决策面为超二次曲面