模式识别——统计决策方法——Neyman-Pearson决策规则
内容参考《模式识别》张学工
引言
问题背景
之前讨论的最小错误率或最小风险决策方法都是在先验概率已知的条件下进行的,先验概率的数值对决策有很密切的关系。然而有时会遇到先验概率不知道,或先验概率发生变化的情况。
在这种情况下,如果仍按某一一组先验概率值 P ( w i ) P(w_i) P(wi)作决策,则很可能使实际的决策效果有较大的错误率或较大风险。能否在这种情况下,找到一种合适的分类器设计,使其最大可能的风险为最小。换句话说,如果先验概率值在教大范围内变化,就可能产生的最大风险而是最小的。
数学问题
在前面的讨论中,我们知道平均错误率可以按下式计算
P
(
e
)
=
P
(
w
2
)
∫
R
1
P
(
x
∣
w
2
)
d
x
+
P
(
w
1
)
∫
R
2
P
(
x
∣
w
1
)
d
x
令
P
1
(
e
)
=
∫
R
2
P
(
x
∣
w
1
)
d
x
,
P
2
(
e
)
=
∫
R
1
P
(
x
∣
w
2
)
d
x
,则有
P
(
e
)
=
P
1
(
e
)
∗
P
(
w
1
)
+
P
2
(
e
)
∗
P
(
w
2
)
P(e)=P(w_2)\int_{R1}{P(x|w_2)dx}+P(w_1)\int_{R2}{P(x|w_1)dx}\\ 令P_1(e)=\int_{R2}{P(x|w_1)dx},P_2(e)=\int_{R1}{P(x|w_2)dx},则有\\ P(e)=P_1(e)*P(w_1)+P_2(e)*P(w_2)
P(e)=P(w2)∫R1P(x∣w2)dx+P(w1)∫R2P(x∣w1)dx令P1(e)=∫R2P(x∣w1)dx,P2(e)=∫R1P(x∣w2)dx,则有P(e)=P1(e)∗P(w1)+P2(e)∗P(w2)
由于先验概率
P
(
w
2
)
P(w_2)
P(w2)与
P
(
w
1
)
P(w_1)
P(w1)在具体问题中往往是确定的,因此一般称
P
1
(
e
)
,
P
2
(
e
)
P_1(e),P_2(e)
P1(e),P2(e)为两类错误率。实际中,有时要求将其中某一类错误率限制在某个常数之下而使另一类错误率尽可能小。例如在癌细胞识别中,希望将异常细胞错判的概率
P
2
(
e
)
P_2(e)
P2(e)限制在很小的值
ε
0
\varepsilon_0
ε0,同时使
P
1
(
e
)
P_1(e)
P1(e)尽可能小。
Neyman-Pearson决策规则
为此我们写出如下算式
γ
=
P
1
(
e
)
+
λ
(
P
2
(
e
)
−
ε
0
)
目的是求
γ
最小值
因为
∫
R
1
p
(
x
∣
w
1
)
d
x
=
1
−
∫
R
2
p
(
x
∣
w
1
)
d
x
γ
=
∫
R
2
p
(
x
∣
w
1
)
d
x
+
λ
(
∫
R
1
p
(
x
∣
w
2
)
d
x
−
ε
0
)
=
(
1
−
λ
ε
0
)
+
∫
R
1
[
λ
p
(
x
∣
w
2
)
−
p
(
x
∣
w
1
)
]
d
x
\gamma=P_1(e)+\lambda(P_2(e)-\varepsilon_0)\\ 目的是求\gamma最小值\\ 因为\int_{R1}{p(x|w_1)dx}=1-\int_{R2}{p(x|w_1)dx}\\ \begin{aligned} \gamma&=\int_{R2}{p(x|w_1)dx}+\lambda(\int_{R1}{p(x|w_2)dx}-\varepsilon_0)\\ &=(1-\lambda\varepsilon_0)+\int_{R1}{[{\lambda}p(x|w_2)-p(x|w_1)]dx} \end{aligned}
γ=P1(e)+λ(P2(e)−ε0)目的是求γ最小值因为∫R1p(x∣w1)dx=1−∫R2p(x∣w1)dxγ=∫R2p(x∣w1)dx+λ(∫R1p(x∣w2)dx−ε0)=(1−λε0)+∫R1[λp(x∣w2)−p(x∣w1)]dx
分别对x和
λ
\lambda
λ求导,并令其导数为零,得到
{
λ
=
p
(
x
∣
w
1
)
p
(
x
∣
w
2
)
∫
R
1
p
(
x
∣
w
2
)
d
x
=
ε
0
\begin{cases} {\lambda}={\frac{p(x|w_1)}{p(x|w_2)}}\\ \int_{R1}{p(x|w_2)dx}=\varepsilon_0 \end{cases}
{λ=p(x∣w2)p(x∣w1)∫R1p(x∣w2)dx=ε0
就决定了这样一个分界面
λ
\lambda
λ,它使
p
2
(
e
)
=
ε
0
p_2(e)={\varepsilon_0}
p2(e)=ε0,同时又在该条件下使
p
1
(
e
)
p_1(e)
p1(e)尽可能小。为了能让
γ
\gamma
γ尽量小,应让
R
1
R_1
R1积分项内全部为负值,即
λ
p
(
x
∣
w
2
)
−
p
(
x
∣
w
1
)
<
0
{\lambda}p(x|w_2)-p(x|w_1)<0
λp(x∣w2)−p(x∣w1)<0
决策规则
若 p ( x ∣ w 1 ) p ( x ∣ w 2 ) > λ ,则 x ∈ w 1 若 p ( x ∣ w 1 ) p ( x ∣ w 2 ) < λ ,则 x ∈ w 2 若\frac{p(x|w_1)}{p(x|w_2)}>\lambda,则x\in{w_1}\\ 若\frac{p(x|w_1)}{p(x|w_2)}<\lambda,则x\in{w_2} 若p(x∣w2)p(x∣w1)>λ,则x∈w1若p(x∣w2)p(x∣w1)<λ,则x∈w2
这种在限定某一类错误为常数而使另一类错误率最小的决策也称Neyman-Pearson决策规则。如果与最小错误率决策规则相对比,可以看出Neyman-Pearson决策规则也是以似然比为基础的,但两者所使用的阈值不同。最小错误率决策使用 P ( w 2 ) P ( w 1 ) \frac{P(w_2)}{P(w_1)} P(w1)P(w2),而Neyman-Pearson是由方程组的解获得的一个常数入。