2.5 正态分布时的统计决策
2.5.1 正态分布及其性质回顾
单变量正态分布
概率密度
p
(
x
)
=
1
2
π
σ
exp
{
−
1
2
(
x
−
μ
σ
)
2
}
(
2
−
45
)
μ
=
E
{
x
}
=
∫
−
∞
+
∞
x
p
(
x
)
d
x
(
2
−
46
)
σ
2
=
∫
−
∞
+
∞
(
x
−
μ
)
2
p
(
x
)
d
x
(
2
−
47
)
p(x) = \dfrac {1} {\sqrt {2 \pi} \sigma} \exp \{{- \dfrac {1} {2}(\dfrac {x-\mu} {\sigma})^2}\} \quad(2-45) \newline \mu = E\{x \} = \int_{-\infin}^{+\infin}xp(x)dx \quad(2-46) \newline \sigma ^2 = \int_{-\infin}^{+\infin}(x-\mu)^2p(x)dx \quad(2-47)
p(x)=2πσ1exp{−21(σx−μ)2}(2−45)μ=E{x}=∫−∞+∞xp(x)dx(2−46)σ2=∫−∞+∞(x−μ)2p(x)dx(2−47)
多元正态分布
- 概率密度
p ( x ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } ( 2 − 48 ) μ = E { x } ( 2 − 49 ) Σ = E { ( x − μ ) ( x − μ ) T } ( 2 − 50 ) γ 2 = ( x − μ ) T Σ − 1 ( x − μ ) ( 2 − 56 ) p(x) = \dfrac {1} {(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\{-\dfrac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\} \quad(2-48) \newline μ=E\{x\}\quad(2-49) \newline Σ=E\{(x−μ)(x−μ)^T\}\quad(2-50) \newline \gamma^2 = (x-\mu)^T\Sigma^{-1}(x-\mu)\quad(2-56) p(x)=(2π)d/2∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}(2−48)μ=E{x}(2−49)Σ=E{(x−μ)(x−μ)T}(2−50)γ2=(x−μ)TΣ−1(x−μ)(2−56)
Σ \Sigma Σ是协方差矩阵,是对称阵,(2-56)称为由 x x x到 μ \mu μ的马氏距离的平方 - 性质
- 参数 μ \mu μ和 Σ \Sigma Σ决定分布
- 等密度点的轨迹为一超椭球面
- 不相关性等价于独立性
- 边缘分布、条件分布、线性变换、线性组合都有正态性
2.5.2 正态分布概率模型下的最小错误率贝叶斯决策
判别函数:
g
i
(
x
)
=
−
1
2
(
x
−
μ
i
)
T
Σ
−
1
(
x
−
μ
i
)
−
d
2
ln
2
π
−
1
2
ln
∣
Σ
i
∣
+
ln
P
(
ω
i
)
(
2
−
66
)
g_i(x) = -\dfrac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)-\dfrac{d}{2}\ln{2\pi}-\dfrac{1}{2}\ln{|\Sigma_i|}+\ln P(\omega_i) \quad(2-66)
gi(x)=−21(x−μi)TΣ−1(x−μi)−2dln2π−21ln∣Σi∣+lnP(ωi)(2−66)
决策面方程:
g
i
(
x
)
=
g
j
(
x
)
g_i(x) = g_j(x)
gi(x)=gj(x)
即
−
1
2
[
(
x
−
μ
i
)
T
Σ
i
−
1
(
x
−
μ
i
)
−
(
x
−
μ
j
)
T
Σ
j
−
1
(
x
−
μ
j
)
]
−
1
2
ln
∣
Σ
i
∣
∣
Σ
j
∣
+
ln
P
(
ω
I
)
P
(
ω
j
)
=
0
(
2
−
67
)
-\dfrac{1}{2}[(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-(x-\mu_j)^T\Sigma_j^{-1}(x-\mu_j)]-\dfrac{1}{2}\ln\dfrac{|\Sigma_i|}{|\Sigma_j|}+\ln \dfrac{P(\omega_I)}{P(\omega_j)}=0\quad(2-67)
−21[(x−μi)TΣi−1(x−μi)−(x−μj)TΣj−1(x−μj)]−21ln∣Σj∣∣Σi∣+lnP(ωj)P(ωI)=0(2−67)
第一种情况
Σ
i
=
σ
2
I
,
i
=
1
,
2
,
…
,
c
\Sigma_i=\sigma^2I,i=1,2,…,c
Σi=σ2I,i=1,2,…,c
∣
Σ
i
∣
=
σ
2
d
(
2
−
69
)
Σ
i
−
1
=
1
σ
2
I
(
2
−
70
)
|\Sigma_i| = \sigma^{2d} \quad(2-69) \newline \Sigma_i^{-1} = \dfrac{1}{\sigma^2}I \quad(2-70)
∣Σi∣=σ2d(2−69)Σi−1=σ21I(2−70)
将(2-69)和(2-70)代入(2-66)得判别函数:
g
i
(
x
)
=
−
(
x
−
μ
i
)
T
(
x
−
μ
i
)
2
σ
2
−
d
2
ln
2
π
−
1
2
ln
σ
2
d
+
ln
P
(
ω
i
)
(
2
−
71
)
g_i(x) = -\dfrac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}-\dfrac{d}{2}\ln 2\pi -\dfrac{1}{2}\ln{\sigma^{2d}}+\ln{P(\omega_i)} \quad(2-71)
gi(x)=−2σ2(x−μi)T(x−μi)−2dln2π−21lnσ2d+lnP(ωi)(2−71)
由于上式中第二、三项与类别
i
i
i无关,化简得:
g
i
(
x
)
=
−
1
2
σ
2
(
x
−
μ
i
)
T
(
x
−
μ
i
)
+
ln
P
(
ω
i
)
=
−
1
2
σ
2
∣
∣
x
−
μ
i
∣
∣
2
+
ln
p
(
ω
i
)
(
2
−
72
)
g_i(x) = -\dfrac{1}{2\sigma^2}(x-\mu_i)^T(x-\mu_i)+\ln{P(\omega_i)}=−\dfrac{1}{2σ^2}||x−\mu_i||^2+\ln p(\omega_i)\quad(2-72)
gi(x)=−2σ21(x−μi)T(x−μi)+lnP(ωi)=−2σ21∣∣x−μi∣∣2+lnp(ωi)(2−72)
式中
(
x
−
μ
i
)
T
(
x
−
μ
i
)
=
∣
∣
x
−
μ
i
∣
∣
2
=
∑
j
=
1
d
(
x
j
−
μ
i
j
)
2
,
i
=
1
,
…
,
c
(
2
−
73
)
(x-\mu_i)^T(x-\mu_i) = ||x-\mu_i||^2 = \sum\limits_{j=1}^d(x_j-\mu_{ij})^2, i = 1,…,c \quad(2-73)
(x−μi)T(x−μi)=∣∣x−μi∣∣2=j=1∑d(xj−μij)2,i=1,…,c(2−73)
是又
x
x
x到
ω
i
\omega_i
ωi的均值向量
μ
i
\mu_i
μi的欧式距离的平方。
先验概率不相等
P
(
ω
i
)
/
=
P
(
ω
j
)
P(\omega_i)\mathrlap{\,/}{=}P(\omega_j)
P(ωi)/=P(ωj)
由于
x
T
x
x^Tx
xTx与
i
i
i无关,(2-72)可化简得判别函数:
g
i
(
x
)
=
μ
i
T
σ
2
x
−
1
2
σ
2
μ
i
T
μ
i
+
ln
P
(
ω
i
)
=
w
i
T
x
+
ω
i
0
(
2
−
75
)
g_i(x)=\dfrac{\mu_i^T}{σ^2}x−\dfrac{1}{2σ^2}\mu_i^T \mu_i+\ln P(\omega_i) = w_i^Tx+\omega_{i0}\quad(2-75)
gi(x)=σ2μiTx−2σ21μiTμi+lnP(ωi)=wiTx+ωi0(2−75)
其中
w
i
=
1
σ
2
μ
i
(
2
−
76
)
ω
i
0
=
−
1
2
σ
2
μ
i
T
μ
i
+
ln
P
(
ω
i
)
(
2
−
77
)
w_i = \dfrac{1}{\sigma^2}\mu_i \quad(2-76) \newline \omega_{i0} = -\dfrac{1}{2\sigma^2}\mu_i^T\mu_i + \ln P(\omega_i) \quad(2-77)
wi=σ21μi(2−76)ωi0=−2σ21μiTμi+lnP(ωi)(2−77)
决策面方程
w
T
(
x
−
x
0
)
=
0
(
2
−
79
)
w^T(x-x_0)=0 \quad(2-79)
wT(x−x0)=0(2−79)
其中
w
=
μ
i
−
μ
j
x
0
=
1
2
(
μ
i
+
μ
j
)
−
σ
2
∣
∣
μ
i
−
μ
j
∣
∣
2
ln
P
(
ω
i
)
P
(
ω
j
)
(
μ
i
−
μ
j
)
(
2
−
80
)
w=\mu_i-\mu_j \newline x_0 = \dfrac{1}{2}(\mu_i+\mu_j)-\dfrac{\sigma^2}{||\mu_i-\mu_j||^2}\ln \dfrac{P(\omega_i)}{P(\omega_j)}(\mu_i-\mu_j) \quad(2-80)
w=μi−μjx0=21(μi+μj)−∣∣μi−μj∣∣2σ2lnP(ωj)P(ωi)(μi−μj)(2−80)
先验概率相等
P
(
ω
i
)
=
P
(
ω
j
)
P(\omega_i)=P(\omega_j)
P(ωi)=P(ωj)
(2-72)化简得判别函数:
g
i
(
x
)
=
−
1
2
σ
2
(
x
−
μ
i
)
T
(
x
−
μ
i
)
=
−
1
2
σ
2
∣
∣
x
−
μ
i
∣
∣
2
g_i(x)=−\dfrac{1}{2\sigma^2}(x−\mu_i)^T(x−\mu_i)=−\dfrac{1}{2σ^2}||x−\mu_i||^2
gi(x)=−2σ21(x−μi)T(x−μi)=−2σ21∣∣x−μi∣∣2
此时
x
=
arg min
i
=
1
,
…
,
c
∣
∣
x
−
μ
i
∣
∣
2
x=\argmin\limits_{i=1,…,c}||x-\mu_i||^2
x=i=1,…,cargmin∣∣x−μi∣∣2。即最小距离分类器。
最小距离分类器:
先验概率相等时,决策面为中垂线;当先验概率不相等时,决策面向先验概率小的方向偏移。
第二种情况
Σ
i
=
Σ
\Sigma_i = \Sigma
Σi=Σ
此时判别函数可以化简为:
g
i
(
x
)
=
−
1
2
(
x
−
μ
i
)
T
Σ
−
1
(
x
−
μ
i
)
+
ln
P
(
ω
i
)
(
2
−
81
)
g_i(x) = -\dfrac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)+\ln P(\omega_i) \quad(2-81)
gi(x)=−21(x−μi)TΣ−1(x−μi)+lnP(ωi)(2−81)
忽略与
i
i
i无关的项得判别函数:
g
i
(
x
)
=
w
i
T
x
+
ω
i
0
(
2
−
83
)
g_i(x)=w_i^Tx+\omega_{i0} \quad(2-83)
gi(x)=wiTx+ωi0(2−83)
其中
w
i
=
Σ
−
1
μ
i
(
2
−
84
)
ω
i
0
=
−
1
2
μ
i
T
Σ
−
1
μ
i
+
ln
P
(
ω
i
)
(
2
−
85
)
w_i=\Sigma^{-1}\mu_i \quad(2-84) \newline \omega_{i0}=-\dfrac{1}{2}\mu_i^T\Sigma^{-1}\mu_i+\ln P(\omega_i) \quad(2-85)
wi=Σ−1μi(2−84)ωi0=−21μiTΣ−1μi+lnP(ωi)(2−85)
决策面方程:
w
T
(
x
−
x
0
)
=
0
(
2
−
86
)
w^T(x-x_0)=0 \quad(2-86)
wT(x−x0)=0(2−86)
其中
w
=
Σ
−
1
(
μ
i
−
μ
j
)
(
2
−
87
)
x
0
=
1
2
(
μ
i
+
μ
j
)
−
ln
P
(
ω
i
)
P
(
ω
j
)
(
μ
i
−
μ
j
)
T
Σ
−
1
(
μ
i
−
μ
j
)
(
μ
i
−
μ
j
)
(
2
−
88
)
w=\Sigma^{-1}(\mu_i-\mu_j) \quad(2-87) \newline x_0 = \dfrac{1}{2}(\mu_i+\mu_j)-\dfrac{\ln \dfrac{P(\omega_i)}{P(\omega_j)}}{(\mu_i-\mu_j)^T\Sigma^{-1}(\mu_i-\mu_j)}(\mu_i-\mu_j) \quad(2-88)
w=Σ−1(μi−μj)(2−87)x0=21(μi+μj)−(μi−μj)TΣ−1(μi−μj)lnP(ωj)P(ωi)(μi−μj)(2−88)
先验概率相等
P
(
ω
i
)
=
P
(
ω
j
)
P(\omega_i)=P(\omega_j)
P(ωi)=P(ωj)
(2-88)可化简为:
x
0
=
1
2
(
μ
i
+
μ
j
)
(
2
−
89
)
x_0=\dfrac{1}{2}(\mu_i+\mu_j) \quad(2-89)
x0=21(μi+μj)(2−89)
此时
x
0
x_0
x0为
μ
i
\mu_i
μi与
μ
j
\mu_j
μj连线的中点,并且
x
=
arg min
γ
2
=
arg min
(
x
−
μ
i
)
T
Σ
−
1
(
x
−
μ
i
)
x=\argmin\gamma^2=\argmin (x-\mu_i)^T\Sigma^{-1}(x-\mu_i)
x=argminγ2=argmin(x−μi)TΣ−1(x−μi),即
x
x
x归于马氏距离平方最小的类别。
先验概率不相等
决策面向先验概率小的方向偏移
第三种情况:各类协方差矩阵不相等
判别函数:
g
i
(
x
)
=
−
1
2
(
x
−
μ
i
)
T
Σ
i
−
1
(
x
−
μ
i
)
−
1
2
ln
∣
Σ
i
∣
+
ln
P
(
ω
i
)
=
x
T
W
i
x
+
w
i
T
x
+
ω
i
0
(
2
−
91
)
g_i(x)=-\dfrac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-\dfrac{1}{2}\ln|\Sigma_i|+\ln P(\omega_i)\newline =x^TW_ix+w_i^Tx+\omega_{i0} \quad(2-91)
gi(x)=−21(x−μi)TΣi−1(x−μi)−21ln∣Σi∣+lnP(ωi)=xTWix+wiTx+ωi0(2−91)
其中
W
i
=
−
1
2
Σ
i
−
1
(
2
−
92
)
w
i
=
Σ
i
−
1
μ
i
(
2
−
93
)
ω
i
0
=
−
1
2
μ
i
T
Σ
i
−
1
μ
i
−
1
2
ln
∣
Σ
i
∣
+
ln
P
(
ω
i
)
(
2
−
94
)
W_i=-\dfrac{1}{2}\Sigma_i^{-1} \quad(2-92) \newline w_i=\Sigma_i^{-1}\mu_i \quad(2-93) \newline \omega_{i0}=-\dfrac{1}{2}\mu_i^T\Sigma_i^{-1}\mu_i-\dfrac{1}{2}\ln|\Sigma_i|+\ln P(\omega_i) \quad(2-94)
Wi=−21Σi−1(2−92)wi=Σi−1μi(2−93)ωi0=−21μiTΣi−1μi−21ln∣Σi∣+lnP(ωi)(2−94)
决策面方程:
x
T
(
W
i
−
W
j
)
x
+
(
w
i
−
w
j
)
T
x
+
ω
i
0
−
ω
j
0
=
0
(
2
−
95
)
x^T(W_i-W_j)x+(w_i-w_j)^Tx+\omega_{i0}-\omega_{j0}=0 \quad(2-95)
xT(Wi−Wj)x+(wi−wj)Tx+ωi0−ωj0=0(2−95)
参考
张学工. 模式识别. 第三版. 北京:清华大学出版社,2010
张学工,汪小我. 模式识别与机器学习. 第四版. 北京:清华大学出版社,2021
部分图片来源于网络