2.6 错误率的计算
- 错误率反映了分类问题固有复杂性的程度
- 在分类器设计出来后, 通常是以错误率大小来衡量其性能优劣
- 通常是以错误率大小作为比较方案的标准
P ( e ) = P ( ω 1 ) ∫ R 2 P ( x ∣ ω 1 ) d x + P ( ω 2 ) ∫ R 1 P ( x ∣ ω 2 ) d x = P ( ω 1 ) P 1 ( e ) + P ( ω 2 ) P 2 ( e ) ( 2 − 96 ) P(e)=P(\omega_1)\int_{R_2} P(x|\omega_1)dx+P(\omega_2)\int_{R_1} P(x|\omega_2)dx \newline =P(\omega_1)P_1(e)+P(\omega_2)P_2(e) \quad(2-96) P(e)=P(ω1)∫R2P(x∣ω1)dx+P(ω2)∫R1P(x∣ω2)dx=P(ω1)P1(e)+P(ω2)P2(e)(2−96)- 实际中,按理论公式计算错误率很困难
由于错误率在模式识别中的重要性及计算上的复杂性,因此在处理实际问题时的三种方法:
- 按理论公式计算
- 计算错误率上界
- 实验估计
2.6.1 正态分布且各类协方差矩阵相等情况下错误率的计算
在最小错误率贝叶斯决策中:
h
(
x
)
=
−
ln
l
(
x
)
=
−
ln
p
(
x
∣
ω
1
)
+
ln
p
(
x
∣
ω
2
)
≶
ln
P
(
ω
1
)
P
(
ω
2
)
,则
x
∈
{
ω
1
ω
2
h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)},则x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases}
h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)≶lnP(ω2)P(ω1),则x∈{ω1ω2
因此
h
(
x
)
h(x)
h(x)是随机变量,记分布密度函数为
p
(
h
∣
ω
1
)
p(h|\omega_1)
p(h∣ω1)。
(2-96)可表示为:
P
1
(
e
)
=
∫
R
2
p
(
x
∣
ω
1
)
d
x
=
∫
t
+
∞
p
(
h
∣
ω
1
)
d
h
(
2
−
97
)
P
2
(
e
)
=
∫
R
1
p
(
x
∣
ω
2
)
d
x
=
∫
−
∞
t
p
(
h
∣
ω
2
)
d
h
(
2
−
97
)
P_1(e)=\int_{R_2}p(x|\omega_1)dx = \int_t^{+\infin}p(h|\omega_1)dh \quad(2-97) \newline P_2(e)=\int_{R_1}p(x|\omega_2)dx = \int_{-\infin}^t p(h|\omega_2)dh \quad(2-97)
P1(e)=∫R2p(x∣ω1)dx=∫t+∞p(h∣ω1)dh(2−97)P2(e)=∫R1p(x∣ω2)dx=∫−∞tp(h∣ω2)dh(2−97)
其中
t
=
ln
P
(
ω
1
)
P
(
ω
2
)
t=\ln \dfrac{P(\omega_1)}{P(\omega_2)}
t=lnP(ω2)P(ω1)
这里和 Neyman-Pearson 决策里的似然比密度函数 p ( l ∣ ω 2 ) p(l|\omega_2) p(l∣ω2) 一样,是将变量 x x x 换成了 h h h 因此积分的区域也发生了相应的变化。
考虑在正态分布时的情况,决策规则可以写成:
h
(
x
)
=
−
ln
l
(
x
)
=
−
ln
p
(
x
∣
ω
1
)
+
ln
p
(
x
∣
ω
2
)
=
−
[
−
1
2
(
x
−
μ
1
)
T
Σ
1
−
1
(
x
−
μ
1
)
−
d
2
ln
2
π
−
1
2
ln
∣
Σ
1
∣
]
+
[
−
1
2
(
x
−
μ
2
)
T
Σ
2
−
1
(
x
−
μ
2
)
−
d
2
ln
2
π
−
1
2
ln
∣
Σ
2
∣
]
=
1
2
(
x
−
μ
1
)
T
Σ
1
−
1
(
x
−
μ
1
)
−
1
2
(
x
−
μ
2
)
T
Σ
2
−
1
(
x
−
μ
2
)
+
1
2
ln
∣
Σ
1
∣
∣
Σ
2
∣
≶
ln
P
(
ω
1
)
P
(
ω
2
)
→
x
∈
{
ω
1
ω
2
(
2
−
100
)
h(x)=-\ln l(x)=-\ln p(x|\omega_1)+\ln p(x|\omega_2) \newline =-[-\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_1|] \newline +[-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-\dfrac{d}{2}\ln 2\pi-\dfrac{1}{2}\ln|\Sigma_2|] \newline =\dfrac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)-\dfrac{1}{2}(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)+\dfrac{1}{2}\ln \dfrac{|\Sigma_1|}{|\Sigma_2|} \newline \lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-100)
h(x)=−lnl(x)=−lnp(x∣ω1)+lnp(x∣ω2)=−[−21(x−μ1)TΣ1−1(x−μ1)−2dln2π−21ln∣Σ1∣]+[−21(x−μ2)TΣ2−1(x−μ2)−2dln2π−21ln∣Σ2∣]=21(x−μ1)TΣ1−1(x−μ1)−21(x−μ2)TΣ2−1(x−μ2)+21ln∣Σ2∣∣Σ1∣≶lnP(ω2)P(ω1)→x∈{ω1ω2(2−100)
如果协方差矩阵相等
Σ
1
=
Σ
2
=
Σ
\Sigma_1=\Sigma_2=\Sigma
Σ1=Σ2=Σ时,决策规则可简化为:
h
(
x
)
=
(
μ
2
−
μ
1
)
T
Σ
−
1
x
+
1
2
(
μ
1
T
Σ
−
1
μ
1
−
μ
2
T
Σ
−
1
μ
2
)
≶
ln
P
(
ω
1
)
P
(
ω
2
)
→
x
∈
{
ω
1
ω
2
(
2
−
101
)
h(x)=(\mu_2-\mu_1)^T\Sigma^{-1}x+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)\lessgtr \ln \dfrac{P(\omega_1)}{P(\omega_2)} \rarr x\isin\begin{cases}\omega_1 \\ \omega_2 \end{cases} \quad(2-101)
h(x)=(μ2−μ1)TΣ−1x+21(μ1TΣ−1μ1−μ2TΣ−1μ2)≶lnP(ω2)P(ω1)→x∈{ω1ω2(2−101)
因此(2-101)可看成是对
x
x
x 的各分量作线性组合
α
T
x
\alpha^Tx
αTx ,再平移,其中
α
T
=
(
μ
2
−
μ
1
)
T
Σ
−
1
\alpha^T=(\mu_2-\mu_1)^T\Sigma^{-1}
αT=(μ2−μ1)TΣ−1 。对于
p
(
h
∣
ω
1
)
p(h|\omega_1)
p(h∣ω1) ,可以计算出决定一维正态分布的参数均值
η
1
\eta_1
η1 及方差
σ
1
2
\sigma_1^2
σ12 :
η
1
=
E
[
h
(
x
)
∣
ω
1
]
=
(
μ
2
−
μ
1
)
T
Σ
−
1
μ
1
+
1
2
(
μ
1
T
Σ
−
1
μ
1
−
μ
2
T
Σ
−
1
μ
2
)
=
−
1
2
(
μ
1
−
μ
2
)
T
Σ
−
1
(
μ
1
−
μ
2
)
(
2
−
102
)
\eta_1=E[h(x)|\omega_1]=(\mu_2-\mu_1)^T\Sigma^{-1}\mu_1+\dfrac{1}{2}(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2) \newline =-\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) \quad(2-102)
η1=E[h(x)∣ω1]=(μ2−μ1)TΣ−1μ1+21(μ1TΣ−1μ1−μ2TΣ−1μ2)=−21(μ1−μ2)TΣ−1(μ1−μ2)(2−102)
令
η
=
1
2
[
(
μ
1
−
μ
2
)
T
Σ
−
1
(
μ
1
−
μ
2
)
]
\eta= \dfrac{1}{2}[(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)]
η=21[(μ1−μ2)TΣ−1(μ1−μ2)]
则
η
1
=
−
η
σ
1
2
=
E
{
[
h
(
x
)
−
η
]
2
∣
ω
1
}
=
(
μ
1
−
μ
2
)
T
Σ
−
1
(
μ
1
−
μ
2
)
=
2
η
(
2
−
103
)
\eta_1=-\eta \newline \sigma_1^2=E\{ [h(x)-\eta]^2|\omega_1\} =(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=2\eta \quad(2-103)
η1=−ησ12=E{[h(x)−η]2∣ω1}=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−103)
同样的可以得出
p
(
h
∣
ω
2
)
p(h|\omega_2)
p(h∣ω2)的参数均值
η
\eta
η及方差
σ
2
2
\sigma_2^2
σ22:
η
2
=
1
2
(
μ
1
−
μ
2
)
T
Σ
−
1
(
μ
1
−
μ
2
)
=
η
(
2
−
104
)
σ
2
2
=
(
μ
1
−
μ
2
)
T
Σ
−
1
(
μ
1
−
μ
2
)
=
2
η
(
2
−
105
)
\eta_2=\dfrac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2)=\eta \quad(2-104) \newline \sigma_2^2=(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1-\mu_2) = 2\eta \quad(2-105)
η2=21(μ1−μ2)TΣ−1(μ1−μ2)=η(2−104)σ22=(μ1−μ2)TΣ−1(μ1−μ2)=2η(2−105)
因此,可以求出
P
1
(
e
)
P_1(e)
P1(e)与
P
2
(
e
)
P_2(e)
P2(e):
P
1
(
e
)
=
∫
t
+
∞
p
(
h
∣
ω
1
)
d
h
=
∫
t
+
∞
1
(
2
π
)
σ
exp
{
−
1
2
(
h
+
η
σ
)
2
}
d
h
=
∫
t
+
∞
(
2
π
)
−
1
2
exp
{
−
1
2
(
h
+
η
σ
)
2
}
d
(
h
+
η
σ
)
=
∫
t
+
η
σ
+
∞
(
2
π
)
−
1
2
exp
(
−
1
2
ξ
2
)
d
ξ
(
2
−
106
)
P
2
(
e
)
=
∫
−
∞
t
p
(
h
∣
ω
2
)
d
h
=
∫
−
∞
t
(
2
π
)
−
1
2
exp
{
−
1
2
(
h
−
η
σ
)
2
}
d
(
h
−
η
σ
)
=
∫
−
∞
t
−
η
σ
(
2
π
)
−
1
2
exp
(
−
1
2
ξ
2
)
d
ξ
(
2
−
107
)
P_1(e)=\int_t^{+\infin}p(h|\omega_1)dh \newline =\int_t^{+\infin}\dfrac{1}{\sqrt{(2\pi)}\sigma} \exp\{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}dh \newline =\int_t^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h+\eta}{\sigma})^2\}d(\dfrac{h+\eta}{\sigma}) \newline =\int_{\dfrac{t+\eta}{\sigma}}^{+\infin}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-106) \newline P_2(e)=\int_{-\infin}^t p(h|\omega_2)dh \newline =\int_{-\infin}^t(2\pi)^{-\dfrac{1}{2}} \exp \{ -\dfrac{1}{2}(\dfrac{h-\eta}{\sigma})^2\}d(\dfrac{h-\eta}{\sigma}) \newline =\int_{-\infin}^{\dfrac{t-\eta}{\sigma}}(2\pi)^{-\dfrac{1}{2}} \exp (-\dfrac{1}{2}\xi^2)d\xi \quad(2-107)
P1(e)=∫t+∞p(h∣ω1)dh=∫t+∞(2π)σ1exp{−21(σh+η)2}dh=∫t+∞(2π)−21exp{−21(σh+η)2}d(σh+η)=∫σt+η+∞(2π)−21exp(−21ξ2)dξ(2−106)P2(e)=∫−∞tp(h∣ω2)dh=∫−∞t(2π)−21exp{−21(σh−η)2}d(σh−η)=∫−∞σt−η(2π)−21exp(−21ξ2)dξ(2−107)
其中
t
=
ln
P
(
ω
1
)
P
(
ω
2
)
,
σ
=
2
η
t=\ln \dfrac{P(\omega_1)}{P(\omega_2)},\sigma=\sqrt{2\eta}
t=lnP(ω2)P(ω1),σ=2η
2.6.2 高维独立随机变量时错误率的估计
当
d
d
d 维随机向量
x
x
x 的分量间相互独立时,
x
x
x 的密度函数可表示为
p
(
x
∣
ω
i
)
=
∏
l
=
1
d
p
(
x
l
∣
ω
i
)
,
i
=
1
,
2
(
2
−
108
)
p(x|\omega_i)=\prod\limits_{l=1}^dp(x_l|\omega_i),i=1,2\quad(2-108)
p(x∣ωi)=l=1∏dp(xl∣ωi),i=1,2(2−108)
因此负对数似然比
h
(
x
)
h(x)
h(x) 为
h
(
x
)
=
∑
l
=
1
d
h
(
x
l
)
(
2
−
109
)
h(x)= \sum\limits_{l=1}^dh(x_l)\quad(2-109)
h(x)=l=1∑dh(xl)(2−109)
其中
h
(
x
l
)
=
−
ln
p
(
x
l
∣
ω
1
)
p
(
x
l
∣
ω
2
)
(
2
−
110
)
h(x_l)=-\ln\dfrac{p(x_l|\omega_1)}{p(x_l |\omega_2)}\quad(2-110)
h(xl)=−lnp(xl∣ω2)p(xl∣ω1)(2−110)
根据中心极限定理,
h
(
x
)
h(x)
h(x) 的密度函数总是趋于正态分布。因此,
h
(
x
)
h(x)
h(x) 的均值
η
i
\eta_i
ηi 及方差
σ
i
2
\sigma_i^2
σi2 。
η
i
=
E
[
h
(
x
)
∣
ω
i
]
=
E
[
∑
l
=
1
d
h
(
x
l
)
∣
ω
i
]
=
∑
l
=
1
d
η
i
l
(
2
−
111
)
σ
i
2
=
E
{
[
h
(
x
)
−
η
i
]
2
∣
ω
i
}
=
E
{
∑
l
=
1
d
[
h
(
x
l
)
−
η
i
l
]
2
+
∑
l
,
j
=
1
l
=
/
j
d
[
h
(
x
l
)
−
η
i
l
]
[
h
(
x
j
)
−
η
i
j
]
∣
ω
i
}
=
∑
l
=
1
d
E
{
[
h
(
x
l
)
−
η
i
l
]
2
∣
ω
i
}
+
∑
l
,
j
=
1
l
≠
j
d
E
{
[
h
(
x
l
)
−
η
i
l
]
[
h
(
x
j
)
−
η
i
j
]
∣
ω
i
}
(
2
−
112
)
\eta_i=E[h(x)|\omega_i]=E[\sum\limits_{l=1}^dh(x_l)|\omega_i]=\sum\limits_{l=1}^d\eta_{il} \quad(2-111) \newline \sigma_i^2=E\{[h(x)-\eta_i]^2|\omega_i\} \newline =E\{\sum\limits_{l=1}^d[h(x_l)-\eta_{il}]^2+\sum_{\substack{l,j=1\\ l{=}\mathllap{/\,}j}}^d[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \newline =\sum\limits_{l=1}^dE\{[h(x_l)-\eta_{il}]^2|\omega_i\}+\sum_{\substack{l,j=1\\ l \not=j}}^dE\{[h(x_l)-\eta_{il}][h(x_j)-\eta_{ij}]|\omega_i\} \quad(2-112)
ηi=E[h(x)∣ωi]=E[l=1∑dh(xl)∣ωi]=l=1∑dηil(2−111)σi2=E{[h(x)−ηi]2∣ωi}=E{l=1∑d[h(xl)−ηil]2+l,j=1l=/j∑d[h(xl)−ηil][h(xj)−ηij]∣ωi}=l=1∑dE{[h(xl)−ηil]2∣ωi}+l,j=1l=j∑dE{[h(xl)−ηil][h(xj)−ηij]∣ωi}(2−112)
根据独立性假设,第二项必定为零,所以方差可写为
σ
i
2
=
∑
l
=
1
d
σ
i
l
2
(
2
−
113
)
\sigma_i^2= \sum\limits_{l=1}^d \sigma_{il}^2 \quad(2-113)
σi2=l=1∑dσil2(2−113)
需要注意的是,这种计算必须在维数
d
d
d 较大时使用。
2.7 离散概率模型下的统计决策举例
采用基于马尔可夫模型来预测或确定CpG岛。如果第
i
i
i 时刻上的取值依赖于且仅依赖于第
i
−
1
i-1
i−1 时刻的取值,状态转移矩阵中行表示前一时刻的取值,列表示当前时刻的取值。
P
(
x
i
∣
x
i
−
1
,
x
i
−
2
,
⋯
,
x
1
)
=
P
(
x
i
∣
x
i
−
1
)
(
2
−
114
)
a
s
t
=
P
(
x
i
=
t
∣
x
i
−
1
=
s
)
(
2
−
115
)
P
(
x
)
≜
P
(
x
1
,
x
2
,
⋯
,
x
i
)
=
P
(
x
1
)
∏
i
=
2
L
a
x
i
−
1
a
x
i
(
2
−
116
)
P(x_i|x_{i−1},x_{i−2},⋯,x_1)=P(x_i|x_{i−1}) \quad(2-114) \newline a_{st}=P(x_i=t|x_{i−1}=s) \quad(2-115) \newline P(x)≜P(x_1,x_2,⋯,x_i)=P(x_1)\prod\limits_{i=2}^L a_{x_{i−1}}a_{x_i} \quad(2-116)
P(xi∣xi−1,xi−2,⋯,x1)=P(xi∣xi−1)(2−114)ast=P(xi=t∣xi−1=s)(2−115)P(x)≜P(x1,x2,⋯,xi)=P(x1)i=2∏Laxi−1axi(2−116)
状态转移矩阵:
状态转移图:
离散变量情况下思路与连续变量类似。如果知道两类的状态转移矩阵,那么对于一个系列样本,我们就可以用式(2-116)分别计算每一类模型下观察到该特定序列的可能性或似然度
P
(
x
∣
ω
1
)
P(x|\omega_1)
P(x∣ω1) ,用同样的似然比来进行类别判断。把 CpG 岛的一类记作 “+”,马尔可夫转移概率记作
a
x
i
−
1
x
i
+
a_{x_{i-1}x_i}^+
axi−1xi+ ;把非 CpG 岛的一类记作 “-” ,非 CpG 岛情况下的马尔可夫转移概率记作
a
x
i
−
1
x
i
−
a_{x_{i-1}x_i}^-
axi−1xi− ,为了方便处理,采用对数似然比进行判别,这一比值通常又被叫做对数几率比。
S
(
x
)
=
log
P
(
x
∣
+
)
P
(
x
∣
−
)
=
log
∏
i
=
1
L
a
x
i
−
1
x
i
+
∏
i
=
1
L
a
x
i
−
1
x
i
−
=
∑
i
=
1
L
log
a
x
i
−
1
x
i
+
a
x
i
−
1
x
i
−
(
2
−
117
)
S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\log\dfrac{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^+}{\prod\limits_{i=1}^L a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-} \quad(2-117)
S(x)=logP(x∣−)P(x∣+)=logi=1∏Laxi−1xi−i=1∏Laxi−1xi+=i=1∑Llogaxi−1xi−axi−1xi+(2−117)
假设我们已经收集了充分的、有代表性的一些 CpG 岛序列片段和一些非 CpG 岛序列片段,统计在所有位置上出现 A、C、G、T 的次数,再统计在每个 A、C、G、T 后面出现 A、C、G、T 的次数,然后用
a
s
t
+
=
c
s
t
+
∑
t
′
c
s
t
′
+
a_{st}^+=\dfrac{c_{st}^+}{\sum_{t'}c_{st'}^+}
ast+=∑t′cst′+cst+ 和
a
s
t
−
=
c
s
t
−
∑
t
′
c
s
t
′
−
a_{st}^-=\dfrac{c_{st}^-}{\sum_{t'}c_{st'}^-}
ast−=∑t′cst′−cst− 来分别估计两类的状态转移概率,其中,
c
s
t
+
c_{st}^+
cst+ 表示 CpG 岛类中从某状态
s
s
s 转移到状态
t
t
t 的出现次数,
∑
t
′
c
s
t
′
+
\sum_{t'}c_{st'}^+
∑t′cst′+表示对
s
s
s 后所有可能出现的状态次数求和;
c
s
t
−
c_{st}^-
cst− 表示在非 CpG 岛上同样的量。
CpG 岛与非 CpG 岛状态转移矩阵
即是求图中两个矩阵的相应单元的比值,因此可将式(2-117)变成
S ( x ) = log P ( x ∣ + ) P ( x ∣ − ) = ∑ i = 1 L log a x i − 1 x i + a x i − 1 x i − = ∑ i = 1 L β x i − 1 x i ( 2 − 118 ) S(x)=\log\dfrac{P(x|+)}{P(x|-)}=\sum\limits_{i=1}^L \log\dfrac{a_{x_{i-1}x_i}^+}{a_{x_{i-1}x_i}^-}=\sum\limits_{i=1}^L\beta_{x_{i-1}x_i} \quad(2-118) S(x)=logP(x∣−)P(x∣+)=i=1∑Llogaxi−1xi−axi−1xi+=i=1∑Lβxi−1xi(2−118)
其中, β s t \beta_{st} βst 为相应的 a s t + a_{st}^+ ast+ 与 a s t − a_{st}^- ast− 比值的对数(以2为底),计算出对数自然比矩阵。
最后按照适当的阈值进行决策。
2.8 小结
统计决策的基本原理就是根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。而通过贝叶斯公式,后验概率的比较可以转化为类条件概率密度的比较,因此下一章将重点讨论类条件概率密度的估计。
参考
张学工. 模式识别. 第三版. 北京:清华大学出版社,2010
张学工,汪小我. 模式识别与机器学习. 第四版. 北京:清华大学出版社,2021
部分图片来源于网络