正态分布时的统计决策

2.5 正态分布时的统计决策

2.5.1 正态分布及其性质回顾

单变量正态分布

概率密度
p ( x ) = 1 2 π σ exp ⁡ { − 1 2 ( x − μ σ ) 2 } ( 2 − 45 ) μ = E { x } = ∫ − ∞ + ∞ x p ( x ) d x ( 2 − 46 ) σ 2 = ∫ − ∞ + ∞ ( x − μ ) 2 p ( x ) d x ( 2 − 47 ) p(x) = \dfrac {1} {\sqrt {2 \pi} \sigma} \exp \{{- \dfrac {1} {2}(\dfrac {x-\mu} {\sigma})^2}\} \quad(2-45) \newline \mu = E\{x \} = \int_{-\infin}^{+\infin}xp(x)dx \quad(2-46) \newline \sigma ^2 = \int_{-\infin}^{+\infin}(x-\mu)^2p(x)dx \quad(2-47) p(x)=2π σ1exp{21(σxμ)2}(245)μ=E{x}=+xp(x)dx(246)σ2=+(xμ)2p(x)dx(247)

多元正态分布

  1. 概率密度
    p ( x ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } ( 2 − 48 ) μ = E { x } ( 2 − 49 ) Σ = E { ( x − μ ) ( x − μ ) T } ( 2 − 50 ) γ 2 = ( x − μ ) T Σ − 1 ( x − μ ) ( 2 − 56 ) p(x) = \dfrac {1} {(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\{-\dfrac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\} \quad(2-48) \newline μ=E\{x\}\quad(2-49) \newline Σ=E\{(x−μ)(x−μ)^T\}\quad(2-50) \newline \gamma^2 = (x-\mu)^T\Sigma^{-1}(x-\mu)\quad(2-56) p(x)=(2π)d/2∣Σ1/21exp{21(xμ)TΣ1(xμ)}(248)μ=E{x}(249)Σ=E{(xμ)(xμ)T}(250)γ2=(xμ)TΣ1(xμ)(256)
    Σ \Sigma Σ是协方差矩阵,是对称阵,(2-56)称为由 x x x μ \mu μ的马氏距离的平方
  2. 性质
  • 参数 μ \mu μ Σ \Sigma Σ决定分布
  • 等密度点的轨迹为一超椭球面
  • 不相关性等价于独立性
  • 边缘分布、条件分布、线性变换、线性组合都有正态性

2.5.2 正态分布概率模型下的最小错误率贝叶斯决策

判别函数
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( ω i ) ( 2 − 66 ) g_i(x) = -\dfrac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)-\dfrac{d}{2}\ln{2\pi}-\dfrac{1}{2}\ln{|\Sigma_i|}+\ln P(\omega_i) \quad(2-66) gi(x)=21(xμi)TΣ1(xμi)2dln2π21lnΣi+lnP(ωi)(266)

决策面方程
g i ( x ) = g j ( x ) g_i(x) = g_j(x) gi(x)=gj(x)

− 1 2 [ ( x − μ i ) T Σ i − 1 ( x − μ i ) − ( x − μ j ) T Σ j − 1 ( x − μ j ) ] − 1 2 ln ⁡ ∣ Σ i ∣ ∣ Σ j ∣ + ln ⁡ P ( ω I ) P ( ω j ) = 0 ( 2 − 67 ) -\dfrac{1}{2}[(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-(x-\mu_j)^T\Sigma_j^{-1}(x-\mu_j)]-\dfrac{1}{2}\ln\dfrac{|\Sigma_i|}{|\Sigma_j|}+\ln \dfrac{P(\omega_I)}{P(\omega_j)}=0\quad(2-67) 21[(xμi)TΣi1(xμi)(xμj)TΣj1(xμj)]21lnΣjΣi+lnP(ωj)P(ωI)=0(267)

第一种情况

Σ i = σ 2 I , i = 1 , 2 , … , c \Sigma_i=\sigma^2I,i=1,2,…,c Σi=σ2I,i=1,2,,c
∣ Σ i ∣ = σ 2 d ( 2 − 69 ) Σ i − 1 = 1 σ 2 I ( 2 − 70 ) |\Sigma_i| = \sigma^{2d} \quad(2-69) \newline \Sigma_i^{-1} = \dfrac{1}{\sigma^2}I \quad(2-70) Σi=σ2d(269)Σi1=σ21I(270)
将(2-69)和(2-70)代入(2-66)得判别函数
g i ( x ) = − ( x − μ i ) T ( x − μ i ) 2 σ 2 − d 2 ln ⁡ 2 π − 1 2 ln ⁡ σ 2 d + ln ⁡ P ( ω i ) ( 2 − 71 ) g_i(x) = -\dfrac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}-\dfrac{d}{2}\ln 2\pi -\dfrac{1}{2}\ln{\sigma^{2d}}+\ln{P(\omega_i)} \quad(2-71) gi(x)=2σ2(xμi)T(xμi)2dln2π21lnσ2d+lnP(ωi)(271)
由于上式中第二、三项与类别 i i i无关,化简得:
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ⁡ P ( ω i ) = − 1 2 σ 2 ∣ ∣ x − μ i ∣ ∣ 2 + ln ⁡ p ( ω i ) ( 2 − 72 ) g_i(x) = -\dfrac{1}{2\sigma^2}(x-\mu_i)^T(x-\mu_i)+\ln{P(\omega_i)}=−\dfrac{1}{2σ^2}||x−\mu_i||^2+\ln p(\omega_i)\quad(2-72) gi(x)=2σ21(xμi)T(xμi)+lnP(ωi)=2σ21∣∣xμi2+lnp(ωi)(272)
式中
( x − μ i ) T ( x − μ i ) = ∣ ∣ x − μ i ∣ ∣ 2 = ∑ j = 1 d ( x j − μ i j ) 2 , i = 1 , … , c ( 2 − 73 ) (x-\mu_i)^T(x-\mu_i) = ||x-\mu_i||^2 = \sum\limits_{j=1}^d(x_j-\mu_{ij})^2, i = 1,…,c \quad(2-73) (xμi)T(xμi)=∣∣xμi2=j=1d(xjμij)2,i=1,,c(273)
是又 x x x ω i \omega_i ωi的均值向量 μ i \mu_i μi的欧式距离的平方。

先验概率不相等

P ( ω i )   / = P ( ω j ) P(\omega_i)\mathrlap{\,/}{=}P(\omega_j) P(ωi)/=P(ωj)
由于 x T x x^Tx xTx i i i无关,(2-72)可化简得判别函数
g i ( x ) = μ i T σ 2 x − 1 2 σ 2 μ i T μ i + ln ⁡ P ( ω i ) = w i T x + ω i 0 ( 2 − 75 ) g_i(x)=\dfrac{\mu_i^T}{σ^2}x−\dfrac{1}{2σ^2}\mu_i^T \mu_i+\ln P(\omega_i) = w_i^Tx+\omega_{i0}\quad(2-75) gi(x)=σ2μiTx2σ21μiTμi+lnP(ωi)=wiTx+ωi0(275)
其中
w i = 1 σ 2 μ i ( 2 − 76 ) ω i 0 = − 1 2 σ 2 μ i T μ i + ln ⁡ P ( ω i ) ( 2 − 77 ) w_i = \dfrac{1}{\sigma^2}\mu_i \quad(2-76) \newline \omega_{i0} = -\dfrac{1}{2\sigma^2}\mu_i^T\mu_i + \ln P(\omega_i) \quad(2-77) wi=σ21μi(276)ωi0=2σ21μiTμi+lnP(ωi)(277)
决策面方程
w T ( x − x 0 ) = 0 ( 2 − 79 ) w^T(x-x_0)=0 \quad(2-79) wT(xx0)=0(279)
其中
w = μ i − μ j x 0 = 1 2 ( μ i + μ j ) − σ 2 ∣ ∣ μ i − μ j ∣ ∣ 2 ln ⁡ P ( ω i ) P ( ω j ) ( μ i − μ j ) ( 2 − 80 ) w=\mu_i-\mu_j \newline x_0 = \dfrac{1}{2}(\mu_i+\mu_j)-\dfrac{\sigma^2}{||\mu_i-\mu_j||^2}\ln \dfrac{P(\omega_i)}{P(\omega_j)}(\mu_i-\mu_j) \quad(2-80) w=μiμjx0=21(μi+μj)∣∣μiμj2σ2lnP(ωj)P(ωi)(μiμj)(280)

先验概率相等

P ( ω i ) = P ( ω j ) P(\omega_i)=P(\omega_j) P(ωi)=P(ωj)
(2-72)化简得判别函数
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) = − 1 2 σ 2 ∣ ∣ x − μ i ∣ ∣ 2 g_i(x)=−\dfrac{1}{2\sigma^2}(x−\mu_i)^T(x−\mu_i)=−\dfrac{1}{2σ^2}||x−\mu_i||^2 gi(x)=2σ21(xμi)T(xμi)=2σ21∣∣xμi2
此时 x = arg min ⁡ i = 1 , … , c ∣ ∣ x − μ i ∣ ∣ 2 x=\argmin\limits_{i=1,…,c}||x-\mu_i||^2 x=i=1,,cargmin∣∣xμi2。即最小距离分类器。
最小距离分类器:最小距离分类器
在这里插入图片描述

先验概率相等时,决策面为中垂线;当先验概率不相等时,决策面向先验概率小的方向偏移。

第二种情况

Σ i = Σ \Sigma_i = \Sigma Σi=Σ
此时判别函数可以化简为:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ⁡ P ( ω i ) ( 2 − 81 ) g_i(x) = -\dfrac{1}{2}(x-\mu_i)^T\Sigma^{-1}(x-\mu_i)+\ln P(\omega_i) \quad(2-81) gi(x)=21(xμi)TΣ1(xμi)+lnP(ωi)(281)
忽略与 i i i无关的项得判别函数
g i ( x ) = w i T x + ω i 0 ( 2 − 83 ) g_i(x)=w_i^Tx+\omega_{i0} \quad(2-83) gi(x)=wiTx+ωi0(283)
其中
w i = Σ − 1 μ i ( 2 − 84 ) ω i 0 = − 1 2 μ i T Σ − 1 μ i + ln ⁡ P ( ω i ) ( 2 − 85 ) w_i=\Sigma^{-1}\mu_i \quad(2-84) \newline \omega_{i0}=-\dfrac{1}{2}\mu_i^T\Sigma^{-1}\mu_i+\ln P(\omega_i) \quad(2-85) wi=Σ1μi(284)ωi0=21μiTΣ1μi+lnP(ωi)(285)
决策面方程
w T ( x − x 0 ) = 0 ( 2 − 86 ) w^T(x-x_0)=0 \quad(2-86) wT(xx0)=0(286)
其中
w = Σ − 1 ( μ i − μ j ) ( 2 − 87 ) x 0 = 1 2 ( μ i + μ j ) − ln ⁡ P ( ω i ) P ( ω j ) ( μ i − μ j ) T Σ − 1 ( μ i − μ j ) ( μ i − μ j ) ( 2 − 88 ) w=\Sigma^{-1}(\mu_i-\mu_j) \quad(2-87) \newline x_0 = \dfrac{1}{2}(\mu_i+\mu_j)-\dfrac{\ln \dfrac{P(\omega_i)}{P(\omega_j)}}{(\mu_i-\mu_j)^T\Sigma^{-1}(\mu_i-\mu_j)}(\mu_i-\mu_j) \quad(2-88) w=Σ1(μiμj)(287)x0=21(μi+μj)(μiμj)TΣ1(μiμj)lnP(ωj)P(ωi)(μiμj)(288)

先验概率相等

P ( ω i ) = P ( ω j ) P(\omega_i)=P(\omega_j) P(ωi)=P(ωj)
(2-88)可化简为:
x 0 = 1 2 ( μ i + μ j ) ( 2 − 89 ) x_0=\dfrac{1}{2}(\mu_i+\mu_j) \quad(2-89) x0=21(μi+μj)(289)
此时 x 0 x_0 x0 μ i \mu_i μi μ j \mu_j μj连线的中点,并且 x = arg min ⁡ γ 2 = arg min ⁡ ( x − μ i ) T Σ − 1 ( x − μ i ) x=\argmin\gamma^2=\argmin (x-\mu_i)^T\Sigma^{-1}(x-\mu_i) x=argminγ2=argmin(xμi)TΣ1(xμi),即 x x x归于马氏距离平方最小的类别。

先验概率不相等

决策面向先验概率小的方向偏移

第三种情况:各类协方差矩阵不相等

判别函数
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( ω i ) = x T W i x + w i T x + ω i 0 ( 2 − 91 ) g_i(x)=-\dfrac{1}{2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)-\dfrac{1}{2}\ln|\Sigma_i|+\ln P(\omega_i)\newline =x^TW_ix+w_i^Tx+\omega_{i0} \quad(2-91) gi(x)=21(xμi)TΣi1(xμi)21lnΣi+lnP(ωi)=xTWix+wiTx+ωi0(291)
其中
W i = − 1 2 Σ i − 1 ( 2 − 92 ) w i = Σ i − 1 μ i ( 2 − 93 ) ω i 0 = − 1 2 μ i T Σ i − 1 μ i − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( ω i ) ( 2 − 94 ) W_i=-\dfrac{1}{2}\Sigma_i^{-1} \quad(2-92) \newline w_i=\Sigma_i^{-1}\mu_i \quad(2-93) \newline \omega_{i0}=-\dfrac{1}{2}\mu_i^T\Sigma_i^{-1}\mu_i-\dfrac{1}{2}\ln|\Sigma_i|+\ln P(\omega_i) \quad(2-94) Wi=21Σi1(292)wi=Σi1μi(293)ωi0=21μiTΣi1μi21lnΣi+lnP(ωi)(294)
决策面方程
x T ( W i − W j ) x + ( w i − w j ) T x + ω i 0 − ω j 0 = 0 ( 2 − 95 ) x^T(W_i-W_j)x+(w_i-w_j)^Tx+\omega_{i0}-\omega_{j0}=0 \quad(2-95) xT(WiWj)x+(wiwj)Tx+ωi0ωj0=0(295)

参考
张学工. 模式识别. 第三版. 北京:清华大学出版社,2010
张学工,汪小我. 模式识别与机器学习. 第四版. 北京:清华大学出版社,2021
部分图片来源于网络

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

max_lfy99

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值