2.5_正态分布概率模型下的最小错误率贝叶斯决策

设某一类的样本的类条件概率服从多元正态分布,即
P ( x ∣ ω i ) ∼ N ( μ i , Σ i ) ( i = 1 , 2 , … , c ) (1) P(\mathbf{x}|\omega_i) \sim \mathcal{N}(\mathbf{\mu_i}, \mathbf{\Sigma_i}) \quad (i=1,2,\dots,c) \tag{1} P(xωi)N(μi,Σi)(i=1,2,,c)(1)

定义该分布下的判别函数,判别函数的定义见2.1节,
g i ( x ) = ln ⁡ P ( x ∣ ω i ) P ( ω i ) g_i(\mathbf{x}) = \ln P(\mathbf{x}|\omega_i)P(\omega_i) gi(x)=lnP(xωi)P(ωi)
= > = ln ⁡ P ( x ∣ ω i ) + ln ⁡ P ( ω i ) (2) => \quad = \ln P(\mathbf{x}|\omega_i) + \ln P(\omega_i) \tag{2} =>=lnP(xωi)+lnP(ωi)(2)

注:这里专门采用了对数式判别函数,利于计算。

由于该类条件概率服从多元正态分布,所以可得:
P ( x ∣ ω i ) = 1 ( 2 π ) d / 2 ∣ Σ i ∣ 1 / 2 e − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) P(\mathbf{x}|\omega_i) = \frac{1}{(2\pi)^{d/2}|\mathbf{\Sigma_i}|^{1/2}}e^{\frac{-1}{2}}(\mathbf{x}-\mathbf{\mu_i})^T\mathbf{\Sigma}^{-1}_i(\mathbf{x}-\mathbf{\mu_i}) P(xωi)=(2π)d/2Σi1/21e21(xμi)TΣi1(xμi)
判别函数:
= > g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ i ∣ + ln ⁡ P ( ω i ) (3) => \quad g_i(\mathbf{x}) = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu_i})^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu_i}) - \frac{d}{2}\ln2\pi - \frac{1}{2}\ln|\mathbf{\Sigma}_i|+\ln P(\omega_i) \tag{3} =>gi(x)=21(xμi)TΣ1(xμi)2dln2π21lnΣi+lnP(ωi)(3)

定义第i类和第j类之间的决策面方程:
g i ( x ) = g j ( x ) (4) g_i(\mathbf{x}) = g_j(\mathbf{x}) \tag{4} gi(x)=gj(x)(4)

将式(3)代入式(4)的方程中,可得:
− 1 2 [ ( x − μ i ) T Σ i − 1 ( x − μ i ) − ( x − μ j ) T Σ − 1 ( x − μ j ) ] − 1 2 ln ⁡ ∣ Σ i ∣ ∣ Σ j ∣ + ln ⁡ P ( ω i ) P ( ω j ) = 0 (5) -\frac{1}{2}[(\mathbf{x}-\mathbf{\mu_i})^T\mathbf{\Sigma}_i^{-1}(\mathbf{x}-\mathbf{\mu_i})-(\mathbf{x}-\mathbf{\mu}_j)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}_j)] - \frac{1}{2}\ln\frac{|\mathbf{\Sigma}_i|}{|\mathbf{\Sigma}_j|}+\ln \frac{P(\omega_i)}{P(\omega_j)} = 0 \tag{5} 21[(xμi)TΣi1(xμi)(xμj)TΣ1(xμj)]21lnΣjΣi+lnP(ωj)P(ωi)=0(5)

现在我们来考虑各类协方差矩阵以及类先验概率在不同情况下,判别函数的变化。

一.第一种情况: Σ i = σ 2 I , i = 1 , 2 , … , c \mathbf{\Sigma}_i=\sigma^2I, i=1,2,\dots,c Σi=σ2I,i=1,2,,c

I I I是dxd维的单位矩阵,这种情况中每类的协方差矩阵都相等,而且类内各特征间相互独立(每个类别里样本的各特征间的协方差为0),每个特征具有相等的方差 σ 2 \sigma^2 σ2。下面进一步针对类别先验概率 P ( ω ) P(\omega) P(ω)再分两种情况:

(1) 先验概率 P ( ω i ) = P ( ω j ) P(\omega_i) = P(\omega_j) P(ωi)=P(ωj)不相等
可知
∣ Σ i ∣ = σ 2 d (6) |\mathbf{\Sigma}_i|=\sigma^{2d} \tag{6} Σi=σ2d(6)
Σ i − 1 = 1 σ 2 I (7) \mathbf{\Sigma}_i^{-1} = \frac{1}{\sigma^2}I \tag{7} Σi1=σ21I(7)

将上述两式代入式(3)的判别函数中,得:
g i ( x ) = − ( x − μ i ) T ( x − μ i ) 2 σ 2 − d 2 ln ⁡ 2 π − d ln ⁡ σ + ln ⁡ P ( ω i ) (8) g_i(\mathbf{x}) = -\frac{(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2} - \frac{d}{2}\ln2\pi - d\ln\sigma+\ln P(\omega_i) \tag{8} gi(x)=2σ2(xμi)T(xμi)2dln2πdlnσ+lnP(ωi)(8)

其中 − d 2 ln ⁡ 2 π -\frac{d}{2}\ln2\pi 2dln2π − d ln ⁡ σ -d\ln\sigma dlnσ和类别无关,可忽略
= > g i ( x ) = − ( x − μ i ) T ( x − μ i ) 2 σ 2 + ln ⁡ P ( ω i ) (9) => \quad g_i(\mathbf{x}) = -\frac{(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2} +\ln P(\omega_i) \tag{9} =>gi(x)=2σ2(xμi)T(xμi)+lnP(ωi)(9)
其中
( x − μ i ) T ( x − μ i ) = ∣ ∣ x − μ i ∣ ∣ 2 = ∑ j = 1 d ( x j − μ i j ) 2 , i = 1 , … , c (10) (\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})=||\mathbf{x}-\mathbf{\mu}_i||^2=\sum_{j=1}^d(x_j-\mu_{ij})^2,\quad i=1,\dots,c \tag{10} (xμi)T(xμi)=∣∣xμi2=j=1d(xjμij)2,i=1,,c(10)
这是 x \mathbf{x} x到类 ω i \omega_i ωi的样本均值向量 μ i \mathbf{\mu}_i μi的欧氏距离的平方。

(2) P ( ω i ) = P ( ω j ) P(\omega_i)=P(\omega_j) P(ωi)=P(ωj)
现在每个类别的先验概率都相等,那么对判别函数式(9)就没什么影响了,可以忽略这一项,则
= > g i ( x ) = − ( x − μ i ) T ( x − μ i ) 2 σ 2 = − 1 2 σ 2 ∣ ∣ x − μ i ∣ ∣ 2 (11) => \quad g_i(\mathbf{x}) = -\frac{(\mathbf{x}-\mathbf{\mu_i})^T(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2}=-\frac{1}{2\sigma^2}||\mathbf{x}-\mathbf{\mu}_i||^2 \tag{11} =>gi(x)=2σ2(xμi)T(xμi)=2σ21∣∣xμi2(11)
根据判别准则,我们要选择使判别函数最大的类别,即 max ⁡ g i ( x ) = > x ∈ ω i \max g_i(\mathbf{x}) => \mathbf{x}\in \omega_i maxgi(x)=>xωi,根据式(11)可得最大化 g i ( x ) g_i(\mathbf{x}) gi(x)就是最小化样本到各类均值向量的距离 min ⁡ ∣ ∣ x − μ i ∣ ∣ 2 \min ||\mathbf{x}-\mathbf{\mu}_i||^2 min∣∣xμi2,这种分类器称为最小距离分类器。如图
在这里插入图片描述

除此之外,对于式(9),还可以继续化简,得:
= > g i ( x ) = − ( x T − μ i T ) ( x − μ i ) 2 σ 2 + ln ⁡ P ( ω i ) (12) => \quad g_i(\mathbf{x}) = -\frac{(\mathbf{x}^T-\mathbf{\mu_i}^T)(\mathbf{x}-\mathbf{\mu_i})}{2\sigma^2} +\ln P(\omega_i) \tag{12} =>gi(x)=2σ2(xTμiT)(xμi)+lnP(ωi)(12)
= >   = − 1 2 σ 2 ( x T x − x T μ i − μ i T x + μ i T μ i ) + ln ⁡ P ( ω i ) (13) => \ = -\frac{1}{2\sigma^2}(\mathbf{x}^T\mathbf{x}-\mathbf{x}^T\mathbf{\mu}_i-\mathbf{\mu}_i^T\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\mu}_i) +\ln P(\omega_i) \tag{13} => =2σ21(xTxxTμiμiTx+μiTμi)+lnP(ωi)(13)

其中 x T x \mathbf{x}^T\mathbf{x} xTx与类别i无关,且 x T μ i = μ i T x \mathbf{x}^T\mathbf{\mu}_i=\mathbf{\mu}_i^T\mathbf{x} xTμi=μiTx, 则
= >   = − 1 2 σ 2 ( μ i T μ i − 2 μ i T x ) + ln ⁡ P ( ω i ) (14) => \quad\ = -\frac{1}{2\sigma^2}(\mathbf{\mu}_i^T\mathbf{\mu}_i-2\mathbf{\mu}_i^T\mathbf{x}) +\ln P(\omega_i) \tag{14} => =2σ21(μiTμi2μiTx)+lnP(ωi)(14)
= > = 1 σ 2 μ i T x − 1 2 σ 2 μ i T μ i + ln ⁡ P ( ω i ) (15) => \quad = \frac{1}{\sigma^2}\mathbf{\mu}_i^T\mathbf{x} - \frac{1}{2\sigma^2}\mathbf{\mu}_i^T\mathbf{\mu}_i + \ln P(\omega_i) \tag{15} =>=σ21μiTx2σ21μiTμi+lnP(ωi)(15)
= > = w i T x + ω i 0 (16) => \quad = \mathbf{w}_i^T\mathbf{x} + \omega_{i0} \tag{16} =>=wiTx+ωi0(16)

可见我们得到了线性分类器,其中: w i = 1 σ 2 μ i ω i 0 = − 1 2 σ 2 μ i T μ i + ln ⁡ P ( ω i ) \mathbf{w}_i = \frac{1}{\sigma^2}\mathbf{\mu}_i \quad \omega_{i0}=- \frac{1}{2\sigma^2}\mathbf{\mu}_i^T\mathbf{\mu}_i + \ln P(\omega_i) wi=σ21μiωi0=2σ21μiTμi+lnP(ωi)
决策规则就是要求对某个待分类的样本 x \mathbf{x} x, 分别计算判别函数 g i ( x ) , i = 1 , … , c g_i(\mathbf{x}), \quad i=1,\dots, c gi(x),i=1,,c
若 g k ( x ) = max ⁡ i g i ( x ) , 则 x ∈ ω i (17) 若g_k(\mathbf{x}) = \max_i g_i(\mathbf{x}), \quad 则\mathbf{x}\in\omega_i \tag{17} gk(x)=imaxgi(x),xωi(17)

线性分类器的决策面是由线性方程 g i ( x ) = g j ( x ) g_i(\mathbf{x}) = g_j(\mathbf{x}) gi(x)=gj(x)所确定的一个超平面。将各自的判别函数代入该方程,我们可以得到:
( μ i − μ j ) T [ x − [ μ i + μ j 2 − σ 2 ( μ i − μ j ) T ln ⁡ P ( ω i ) P ( ω j ) ] ] = 0 (18) (\mathbf{\mu}_i-\mathbf{\mu}_j)^T[\mathbf{x}-[\frac{\mathbf{\mu}_i+\mathbf{\mu}_j}{2}-\frac{\sigma^2}{(\mathbf{\mu}_i-\mathbf{\mu}_j)^T}\ln\frac{P(\omega_i)}{P(\omega_j)}]] = 0 \tag{18} (μiμj)T[x[2μi+μj(μiμj)Tσ2lnP(ωj)P(ωi)]]=0(18)
上式可化为,
w T ( x − x 0 ) = 0 (19) \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0) = 0 \tag{19} wT(xx0)=0(19)
其中
w = μ i − μ j (20) \quad \mathbf{w} = \mathbf{\mu}_i-\mathbf{\mu}_j \tag{20} w=μiμj(20)
x 0 = σ 2 ∣ ∣ μ i − μ j ∣ ∣ 2 ln ⁡ P ( ω i ) P ( ω j ) ( μ i − μ j ) (21) \mathbf{x}_0 = \frac{\sigma^2}{||\mathbf{\mu}_i-\mathbf{\mu}_j||^2}\ln\frac{P(\omega_i)}{P(\omega_j)}(\mathbf{\mu}_i-\mathbf{\mu}_j) \tag{21} x0=∣∣μiμj2σ2lnP(ωj)P(ωi)(μiμj)(21)

满足上式 x \mathbf{x} x的轨迹构成了 ω i \omega_i ωi ω j \omega_j ωj类间的决策面,它是一个超平面,当 P ( ω i ) = P ( ω j ) P(\omega_i)=P(\omega_j) P(ωi)=P(ωj)时, x 0 = 0 \mathbf{x}_0=0 x0=0,此时超平面通过 μ i \mathbf{\mu}_i μi μ j \mathbf{\mu}_j μj连线中点,并与连线正交。如图:
在这里插入图片描述

可知这个决策面的方向是由 w \mathbf{w} w决定的,位置由 x 0 \mathbf{x}_0 x0决定,所以决策面与先验概率相等时的决策面平行,当先验不相等时,向先验概率小的方向偏移,即先验概率大的一类要占据更大的决策空间。

二. 第二种情况: Σ i = Σ \mathbf{\Sigma}_i = \mathbf{\Sigma} Σi=Σ

此时,各类别的协方差矩阵都相等,但是类内各样本的特征并不独立。判别函数为:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ⁡ P ( ω i ) (22) g_i(\mathbf{x}) = -\frac{1}{2}(\mathbf{x}-\mathbf{\mu}_i)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}_i) + \ln P(\omega_i) \tag{22} gi(x)=21(xμi)TΣ1(xμi)+lnP(ωi)(22)

若c类先验概率都相等,则判别函数可进一步化简为:
g i ( x ) = γ 2 = ( x − μ i ) T Σ − 1 ( x − μ i ) (23) g_i(\mathbf{x}) = \gamma^2=(\mathbf{x}-\mathbf{\mu}_i)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}_i) \tag{23} gi(x)=γ2=(xμi)TΣ1(xμi)(23)

这时决策规则为:为了对样本 x \mathbf{x} x进行分类,只要计算出 x \mathbf{x} x到每类的均值向量 μ i \mathbf{\mu}_i μi的Mahalanobis马氏距离的平方,最后把 x \mathbf{x} x归于 γ 2 \gamma^2 γ2最小的类别。将式(22)进一步展开:
g i ( x ) = − 1 2 ( x T Σ − 1 x − x T Σ − 1 μ i − μ i T Σ − 1 x + μ i T Σ − 1 μ i ) + ln ⁡ P ( ω i ) (24) g_i(\mathbf{x}) = -\frac{1}{2}(\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}-\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i-\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i) + \ln P(\omega_i) \tag{24} gi(x)=21(xTΣ1xxTΣ1μiμiTΣ1x+μiTΣ1μi)+lnP(ωi)(24)
= > = − 1 2 ( x T Σ − 1 x − 2 μ i T Σ − 1 T x + μ i T Σ − 1 μ i ) + ln ⁡ P ( ω i ) (25) =>\quad = -\frac{1}{2}(\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}-2\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1T}\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i) + \ln P(\omega_i) \tag{25} =>=21(xTΣ1x2μiTΣ1Tx+μiTΣ1μi)+lnP(ωi)(25)
= > = − 1 2 x T Σ − 1 x + μ i T Σ − 1 T x − 1 2 μ i T Σ − 1 μ i + ln ⁡ P ( ω i ) (26) =>\quad = -\frac{1}{2}\mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x}+\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1T}\mathbf{x}-\frac{1}{2}\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i + \ln P(\omega_i) \tag{26} =>=21xTΣ1x+μiTΣ1Tx21μiTΣ1μi+lnP(ωi)(26)
忽略其中与类别i无关的 x T Σ − 1 x \mathbf{x}^T\mathbf{\Sigma}^{-1}\mathbf{x} xTΣ1x
= > = μ i T Σ − 1 T x − 1 2 μ i T Σ − 1 μ i + ln ⁡ P ( ω i ) (27) => \quad = \mathbf{\mu}_i^T\mathbf{\Sigma}^{-1T}\mathbf{x}-\frac{1}{2}\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i + \ln P(\omega_i) \tag{27} =>=μiTΣ1Tx21μiTΣ1μi+lnP(ωi)(27)
= > = w i T x + ω i 0 (28) => \quad =\mathbf{w}_i^T\mathbf{x}+\omega_{i0} \tag{28} =>=wiTx+ωi0(28)
其中
w i = Σ − 1 μ i ω i 0 = − 1 2 μ i T Σ − 1 μ i + ln ⁡ P ( ω i ) (29) \mathbf{w}_i = \mathbf{\Sigma}^{-1}\mathbf{\mu}_i \\ \omega_{i0} = -\frac{1}{2}\mathbf{\mu}_i^T\mathbf{\Sigma}^{-1}\mathbf{\mu}_i + \ln P(\omega_i) \tag{29} wi=Σ1μiωi0=21μiTΣ1μi+lnP(ωi)(29)

可见这种情况依然是 x \mathbf{x} x的线性判别函数,因此决策面仍是一个超平面,若决策域 R i R_i Ri R j R_j Rj相邻,则决策面方程为:
g i ( x ) = g j ( x ) g_i(\mathbf{x})=g_j(\mathbf{x}) gi(x)=gj(x),可化简为
w T ( x − x 0 ) = 0 (30) \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0\tag{30} wT(xx0)=0(30)
其中
w = Σ − 1 ( μ i − μ j ) (31) \mathbf{w}=\mathbf{\Sigma}^{-1}(\mathbf{\mu}_i-\mathbf{\mu}_j) \tag{31} w=Σ1(μiμj)(31)
x 0 = 1 2 ( μ i + μ j ) − 1 ( μ i − μ j ) T Σ − 1 ( μ i − μ j ) ln ⁡ P ( ω i ) P ( ω j ) ( μ i − μ j ) (32) \mathbf{x}_0 = \frac{1}{2}(\mathbf{\mu}_i+\mathbf{\mu}_j)-\frac{1}{(\mathbf{\mu}_i-\mathbf{\mu}_j)^T\mathbf{\Sigma}^{-1}(\mathbf{\mu}_i-\mathbf{\mu}_j)}\ln \frac{P(\omega_i)}{P(\omega_j)}(\mathbf{\mu}_i-\mathbf{\mu}_j) \tag{32} x0=21(μi+μj)(μiμj)TΣ1(μiμj)1lnP(ωj)P(ωi)(μiμj)(32)

对比式(20)和(21),差别就在于 Σ i \mathbf{\Sigma}_i Σi的不同。决策面为满足上式(30)的 x \mathbf{x} x的轨迹构成了 ω i \omega_i ωi ω j \omega_j ωj类之间的决策面,决策面过 x 0 \mathbf{x}_0 x0,当 P ( ω i ) = P ( ω j ) P(\omega_i)=P(\omega_j) P(ωi)=P(ωj)时,该超平面过 μ i + μ j 2 \frac{\mathbf{\mu}_i+\mathbf{\mu}_j}{2} 2μi+μj。如图:
在这里插入图片描述

这里超平面不与两均值向量的连线正交,因为 w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\mathbf{\Sigma}^{-1}(\mathbf{\mu}_i-\mathbf{\mu}_j) w=Σ1(μiμj),除非 Σ = I \mathbf{\Sigma}=I Σ=I

总结

  • 在多元正态分布的条件下,基于最小错误率贝叶斯决策只要能做到各类别的协方差矩阵是一样的,那么无论先验概率是否相等,都可以用线性分界面实现。

  • 最小(欧氏)距离分类器则要求各正态分布的协方差矩阵为单位矩阵,且各类别的先验概率相等。

三. 第三种情况各类的协方差矩阵互不相等

此时判别函数为 x \mathbf{x} x的二次型,表示超二次曲面。

  • 30
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值