错误率的计算、离散概率模型下的统计决策举例

2.6 错误率的计算

  • 错误率反映了分类问题固有复杂性的程度
  • 在分类器设计出来后, 通常是以错误率大小来衡量其性能优劣
  • 通常是以错误率大小作为比较方案的标准
    P ( e ) = P ( ω 1 ) ∫ R 2 P ( x ∣ ω 1 ) d x + P ( ω 2 ) ∫ R 1 P ( x ∣ ω 2 ) d x = P ( ω 1 ) P 1 ( e ) + P ( ω 2 ) P 2 ( e ) ( 2 − 96 ) P(e)=P(\omega_1)\int_{R_2} P(x|\omega_1)dx+P(\omega_2)\int_{R_1} P(x|\omega_2)dx \newline =P(\omega_1)P_1(e)+P(\omega_2)P_2(e) \quad(2-96) P(e)=P(ω1)R2P(xω1)dx+P(ω2)R1P(xω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(296)
  • 实际中,按理论公式计算错误率很困难

由于错误率在模式识别中的重要性及计算上的复杂性,因此在处理实际问题时的三种方法:

  1. 按理论公式计算
  2. 计算错误率上界
  3. 实验估计

2.6.1 正态分布且各类协方差矩阵相等情况下错误率的计算

在最小错误率贝叶斯决策中:
h ( x ) = − ln ⁡ l ( x ) = − ln ⁡ p ( x ∣ ω 1 ) + ln ⁡ p ( x ∣ ω 2 ) ≶ ln ⁡ P ( ω 1 ) P ( ω 2 ) ,则 x ∈ { ω 1 ω 2 h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)},则x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} h(x)=lnl(x)=lnp(xω1)+lnp(xω2)lnP(ω2)P(ω1),则x{ω1ω2
因此 h ( x ) h(x) h(x)是随机变量,记分布密度函数为 p ( h ∣ ω 1 ) p(h|\omega_1) p(hω1)
(2-96)可表示为:
P 1 ( e ) = ∫ R 2 p ( x ∣ ω 1 ) d x = ∫ t + ∞ p ( h ∣ ω 1 ) d h ( 2 − 97 ) P 2 ( e ) = ∫ R 1 p ( x ∣ ω 2 ) d x = ∫ − ∞ t p ( h ∣ ω 2 ) d h ( 2 − 97 ) P_1(e)=\int_{R_2}p(x|\omega_1)dx = \int_t^{+\infin}p(h|\omega_1)dh \quad(2-97) \newline P_2(e)=\int_{R_1}p(x|\omega_2)dx = \int_{-\infin}^t p(h|\omega_2)dh \quad(2-97) P1(e)=R2p(xω1)dx=t+p(hω1)dh(297)P2(e)=R1p(xω2)dx=tp(hω2)dh(297)
其中
t = ln ⁡ P ( ω 1 ) P ( ω 2 ) t=\ln \dfrac{P(\omega_1)}{P(\omega_2)} t=lnP(ω2)P(ω1)

这里和 Neyman-Pearson 决策里的似然比密度函数 p ( l ∣ ω 2 ) p(l|\omega_2) p(lω2) 一样,是将变量 x x x 换成了 h h h 因此积分的区域也发生了相应的变化。

考虑在正态分布时的情况,决策规则可以写成:
h ( x ) = − ln ⁡ l ( x ) = − ln ⁡ p ( x ∣ ω 1 ) + ln ⁡ p ( x ∣ ω 2 ) = − [ − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ 1 ∣ ] + [ − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − d 2 ln ⁡ 2 π − 1 2 ln ⁡ ∣ Σ 2 ∣ ] = 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) + 1 2 ln ⁡ ∣ Σ 1 ∣ ∣ Σ 2 ∣ ≶ ln ⁡ P ( ω 1 ) P ( ω 2 ) → x ∈ { ω 1 ω 2 ( 2 − 100 ) h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \newline =-[-\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_1|] \newline +[-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_2|] \newline =\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)+\dfrac{1}{2}\ln \dfrac{|\Sigma_1|}{|\Sigma_2|} \newline \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-100) h(x)=lnl(x)=lnp(xω1)+lnp(xω2)=[21(xμ1)TΣ11(xμ1)2dln2π21lnΣ1]+[21(xμ2)TΣ21(xμ2)2dln2π21lnΣ2]=21(xμ1)TΣ11(xμ1)21(xμ2)TΣ21(xμ2)+21lnΣ2Σ1lnP(ω2)P(ω1)x{ω1ω2(2100)
如果协方差矩阵相等 Σ 1 = Σ 2 = Σ \Sigma_1=\Sigma_2=\Sigma Σ1=Σ2=Σ时,决策规则可简化为:
h ( x ) = ( μ 2 − μ 1 ) T Σ − 1 x + 1 2 ( μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ) ≶ ln ⁡ P ( ω 1 ) P ( ω 2 ) → x ∈ { ω 1 ω 2 ( 2 − 101 ) h(x)=(\mu_2-\mu_1)^T\Sigma^{-1}x+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)\lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-101) h(x)=(μ2μ1)TΣ1x+21(μ1TΣ1μ1μ2TΣ1μ2)lnP(ω2)P(ω1)x{ω1ω2(2101)
因此(2-101)可看成是对 x x x 的各分量作线性组合 α T x \alpha^Tx αTx ,再平移,其中 α T = ( μ 2 − μ 1 ) T Σ − 1 \alpha^T=(\mu_2-\mu_1)^T\Sigma^{-1} αT=(μ2μ1)TΣ1 。对于 p ( h ∣ ω 1 ) p(h|\omega_1) p(hω1) ,可以计算出决定一维正态分布的参数均值 η 1 \eta_1 η1 及方差 σ 1 2 \sigma_1^2 σ12
η 1 = E [ h ( x ) ∣ ω 1 ] = ( μ 2 − μ 1 ) T Σ − 1 μ 1 + 1 2 ( μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ) = − 1 2 ( μ 1 − μ 2 ) T Σ − 1 ( μ 1 − μ 2 ) ( 2 − 102 ) \eta_1=E[h(x)|\omega_1]=(\mu_2-\mu_1)^T\Sigma^{-1}\mu_1+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2) \newline =-\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \quad(2-102) η1=E[h(x)ω1]=(μ2μ1)TΣ1μ1+21(μ1TΣ1μ1μ2TΣ1μ2)=21(μ1μ2)TΣ1(μ1μ2)(2102)

η = 1 2 [ ( μ 1 − μ 2 ) T Σ − 1 ( μ 1 − μ 2 ) ] \eta= \dfrac{1}{2}[(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)] η=21[(μ1μ2)TΣ1(μ1μ2)]

η 1 = − η σ 1 2 = E { [ h ( x ) − η ] 2 ∣ ω 1 } = ( μ 1 − μ 2 ) T Σ − 1 ( μ 1 − μ 2 ) = 2 η ( 2 − 103 ) \eta_1=-\eta \newline \sigma_1^2=E\{ [h(x)-\eta]^2|\omega_1\} =(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=2\eta \quad(2-103) η1=ησ12=E{[h(x)η]2ω1}=(μ1μ2)TΣ1(μ1μ2)=2η(2103)
同样的可以得出 p ( h ∣ ω 2 ) p(h|\omega_2) p(hω2)的参数均值 η \eta η及方差 σ 2 2 \sigma_2^2 σ22
η 2 = 1 2 ( μ 1 − μ 2 ) T Σ − 1 ( μ 1 − μ 2 ) = η ( 2 − 104 ) σ 2 2 = ( μ 1 − μ 2 ) T Σ − 1 ( μ 1 − μ 2 ) = 2 η ( 2 − 105 ) \eta_2=\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=\eta \quad(2-104) \newline \sigma_2^2=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) = 2\eta \quad(2-105) η2=21(μ1μ2)TΣ1(μ1μ2)=η(2104)σ22=(μ1μ2)TΣ1(μ1μ2)=2η(2105)
因此,可以求出 P 1 ( e ) P_1(e) P1(e) P 2 ( e ) P_2(e) P2(e)
P 1 ( e ) = ∫ t + ∞ p ( h ∣ ω 1 ) d h = ∫ t + ∞ 1 ( 2 π ) σ exp ⁡ { − 1 2 ( h + η σ ) 2 } d h = ∫ t + ∞ ( 2 π ) − 1 2 exp ⁡ { − 1 2 ( h + η σ ) 2 } d ( h + η σ ) = ∫ t + η σ + ∞ ( 2 π ) − 1 2 exp ⁡ ( − 1 2 ξ 2 ) d ξ ( 2 − 106 ) P 2 ( e ) = ∫ − ∞ t p ( h ∣ ω 2 ) d h = ∫ − ∞ t ( 2 π ) − 1 2 exp ⁡ { − 1 2 ( h − η σ ) 2 } d ( h − η σ ) = ∫ − ∞ t − η σ ( 2 π ) − 1 2 exp ⁡ ( − 1 2 ξ 2 ) d ξ ( 2 − 107 ) P_1(e)=\int_t^{+\infin}p(h|\omega_1)dh \newline =\int_t^{+\infin}\dfrac{1}{\sqrt{(2\pi)}\sigma} \exp\{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}dh \newline =\int_t^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}d(\dfrac{h+\eta}{\sigma}) \newline =\int_{\dfrac{t+\eta}{\sigma}}^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-106) \newline P_2(e)=\int_{-\infin}^t p(h|\omega_2)dh \newline =\int_{-\infin}^t(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h-\eta}{\sigma})^2\}d(\dfrac{h-\eta}{\sigma}) \newline =\int_{-\infin}^{\dfrac{t-\eta}{\sigma}}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-107) P1(e)=t+p(hω1)dh=t+(2π) σ1exp{21(σh+η)2}dh=t+(2π)21exp{21(σh+η)2}d(σh+η)=σt+η+(2π)21exp(21ξ2)dξ(2106)P2(e)=tp(hω2)dh=t(2π)21exp{21(σhη)2}d(σhη)=σtη(2π)21exp(21ξ2)dξ(2107)
其中
t = ln ⁡ P ( ω 1 ) P ( ω 2 ) , σ = 2 η t=\ln \dfrac{P(\omega_1)}{P(\omega_2)},\sigma=\sqrt{2\eta} t=lnP(ω2)P(ω1),σ=2η

2.6.2 高维独立随机变量时错误率的估计

d d d 维随机向量 x x x 的分量间相互独立时, x x x 的密度函数可表示为
p ( x ∣ ω i ) = ∏ l = 1 d p ( x l ∣ ω i ) , i = 1 , 2 ( 2 − 108 ) p(x|\omega_i)=\prod\limits_{l=1}^dp(x_l|\omega_i),i=1,2\quad(2-108) p(xωi)=l=1dp(xlωi),i=1,2(2108)
因此负对数似然比 h ( x ) h(x) h(x)
h ( x ) = ∑ l = 1 d h ( x l ) ( 2 − 109 ) h(x)= \sum\limits_{l=1}^dh(x_l)\quad(2-109) h(x)=l=1dh(xl)(2109)
其中
h ( x l ) = − ln ⁡ p ( x l ∣ ω 1 ) p ( x l ∣ ω 2 ) ( 2 − 110 ) h(x_l)=-\ln\dfrac{p(x_l|\omega_1)}{p(x_l |\omega_2)}\quad(2-110) h(xl)=lnp(xlω2)p(xlω1)(2110)
根据中心极限定理, h ( x ) h(x) h(x) 的密度函数总是趋于正态分布。因此, h ( x ) h(x) h(x) 的均值 η i \eta_i ηi 及方差 σ i 2 \sigma_i^2 σi2
η i = E [ h ( x ) ∣ ω i ] = E [ ∑ l = 1 d h ( x l ) ∣ ω i ] = ∑ l = 1 d η i l ( 2 − 111 ) σ i 2 = E { [ h ( x ) − η i ] 2 ∣ ω i } = E { ∑ l = 1 d [ h ( x l ) − η i l ] 2 + ∑ l , j = 1 l = / j d [ h ( x l ) − η i l ] [ h ( x j ) − η i j ] ∣ ω i } = ∑ l = 1 d E { [ h ( x l ) − η i l ] 2 ∣ ω i } + ∑ l , j = 1 l ≠ j d E { [ h ( x l ) − η i l ] [ h ( x j ) − η i j ] ∣ ω i } ( 2 − 112 ) \eta_i=E[h(x)|\omega_i]=E[\sum\limits_{l=1}^dh(x_l)|\omega_i]=\sum\limits_{l=1}^d\eta_{il} \quad(2-111) \newline \sigma_i^2=E\{[h(x)-\eta_i]^2|\omega_i\} \newline =E\{\sum\limits_{l=1}^d[h(x_l)-\eta_{il}]^2+\sum_{\substack{l,j=1\\ l{=}\mathllap{/\,}j}}^d[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \newline =\sum\limits_{l=1}^dE\{[h(x_l)-\eta_{il}]^2|\omega_i\}+\sum_{\substack{l,j=1\\ l \not=j}}^dE\{[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \quad(2-112) ηi=E[h(x)ωi]=E[l=1dh(xl)ωi]=l=1dηil(2111)σi2=E{[h(x)ηi]2ωi}=E{l=1d[h(xl)ηil]2+l,j=1l=/jd[h(xl)ηil][h(xj)ηij]ωi}=l=1dE{[h(xl)ηil]2ωi}+l,j=1l=jdE{[h(xl)ηil][h(xj)ηij]ωi}(2112)
根据独立性假设,第二项必定为零,所以方差可写为
σ i 2 = ∑ l = 1 d σ i l 2 ( 2 − 113 ) \sigma_i^2= \sum\limits_{l=1}^d \sigma_{il}^2 \quad(2-113) σi2=l=1dσil2(2113)
需要注意的是,这种计算必须在维数 d d d 较大时使用。

2.7 离散概率模型下的统计决策举例

采用基于马尔可夫模型来预测或确定CpG岛。如果第 i i i 时刻上的取值依赖于且仅依赖于第 i − 1 i-1 i1 时刻的取值,状态转移矩阵中行表示前一时刻的取值,列表示当前时刻的取值。
P ( x i ∣ x i − 1 , x i − 2 , ⋯ , x 1 ) = P ( x i ∣ x i − 1 ) ( 2 − 114 ) a s t = P ( x i = t ∣ x i − 1 = s ) ( 2 − 115 ) P ( x ) ≜ P ( x 1 , x 2 , ⋯ , x i ) = P ( x 1 ) ∏ i = 2 L a x i − 1 a x i ( 2 − 116 ) P(x_i|x_{i−1},x_{i−2},⋯,x_1)=P(x_i|x_{i−1}) \quad(2-114) \newline a_{st}=P(x_i=t|x_{i−1}=s) \quad(2-115) \newline P(x)≜P(x_1,x_2,⋯,x_i)=P(x_1)\prod\limits_{i=2}^L a_{x_{i−1}}a_{x_i} \quad(2-116) P(xixi1,xi2,,x1)=P(xixi1)(2114)ast=P(xi=txi1=s)(2115)P(x)P(x1,x2,,xi)=P(x1)i=2Laxi1axi(2116)

状态转移矩阵:在这里插入图片描述
状态转移图:
在这里插入图片描述

离散变量情况下思路与连续变量类似。如果知道两类的状态转移矩阵,那么对于一个系列样本,我们就可以用式(2-116)分别计算每一类模型下观察到该特定序列的可能性或似然度 P ( x ∣ ω 1 ) P(x|\omega_1) P(xω1) ,用同样的似然比来进行类别判断。把 CpG 岛的一类记作 “+”,马尔可夫转移概率记作 a x i − 1 x i + a_{x_{i-1}x_i}^+ axi1xi+ ;把非 CpG 岛的一类记作 “-” ,非 CpG 岛情况下的马尔可夫转移概率记作 a x i − 1 x i − a_{x_{i-1}x_i}^- axi1xi ,为了方便处理,采用对数似然比进行判别,这一比值通常又被叫做对数几率比。
S ( x ) = log ⁡ P ( x ∣ + ) P ( x ∣ − ) = log ⁡ ∏ i = 1 L a x i − 1 x i + ∏ i = 1 L a x i − 1 x i − = ∑ i = 1 L log ⁡ a x i − 1 x i + a x i − 1 x i − ( 2 − 117 ) S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\log\dfrac{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^+}{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-} \quad(2-117) S(x)=logP(x)P(x+)=logi=1Laxi1xii=1Laxi1xi+=i=1Llogaxi1xiaxi1xi+(2117)
假设我们已经收集了充分的、有代表性的一些 CpG 岛序列片段和一些非 CpG 岛序列片段,统计在所有位置上出现 A、C、G、T 的次数,再统计在每个 A、C、G、T 后面出现 A、C、G、T 的次数,然后用 a s t + = c s t + ∑ t ′ c s t ′ + a_{st}^+=\dfrac{c_{st}^+}{\sum_{t'}c_{st'}^+} ast+=tcst+cst+ a s t − = c s t − ∑ t ′ c s t ′ − a_{st}^-=\dfrac{c_{st}^-}{\sum_{t'}c_{st'}^-} ast=tcstcst 来分别估计两类的状态转移概率,其中, c s t + c_{st}^+ cst+ 表示 CpG 岛类中从某状态 s s s 转移到状态 t t t 的出现次数, ∑ t ′ c s t ′ + \sum_{t'}c_{st'}^+ tcst+表示对 s s s 后所有可能出现的状态次数求和; c s t − c_{st}^- cst 表示在非 CpG 岛上同样的量。

CpG 岛与非 CpG 岛状态转移矩阵
CpG 岛状态转移矩阵
非 CpG 岛状态转移矩阵
即是求图中两个矩阵的相应单元的比值,因此可将式(2-117)变成
S ( x ) = log ⁡ P ( x ∣ + ) P ( x ∣ − ) = ∑ i = 1 L log ⁡ a x i − 1 x i + a x i − 1 x i − = ∑ i = 1 L β x i − 1 x i ( 2 − 118 ) S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L\beta_{x_{i-1}x_i} \quad(2-118) S(x)=logP(x)P(x+)=i=1Llogaxi1xiaxi1xi+=i=1Lβxi1xi(2118)
其中, β s t \beta_{st} βst 为相应的 a s t + a_{st}^+ ast+ a s t − a_{st}^- ast 比值的对数(以2为底),计算出对数自然比矩阵。
对数似然比矩阵
最后按照适当的阈值进行决策。

2.8 小结

统计决策的基本原理就是根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。而通过贝叶斯公式,后验概率的比较可以转化为类条件概率密度的比较,因此下一章将重点讨论类条件概率密度的估计。

参考
张学工. 模式识别. 第三版. 北京:清华大学出版社,2010
张学工,汪小我. 模式识别与机器学习. 第四版. 北京:清华大学出版社,2021
部分图片来源于网络

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

max_lfy99

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值