两类错误率
- 问题:是哪两类?
研究两类错误率,将样本分为阳性(正样本)和阴性(负样本);那么将样本分错就有两类情况,一是将阳性样本分成了阴性(即假阴);二是将阴性样本分成了阳性(假阳);
我们通过表格的形式来反应实际类别和预测的类别之间的关系:
阳性(实际) | 阴性(实际) | |
---|---|---|
阳性(预测) | 真阳性(TP) | 假阳性(FP) |
阴性(预测) | 假阳性(FN) | 真阴性(TN) |
在这里错误的分类有两种,FP和FN。在这里如果我们统计假阳样本占总的阴性样本的比例,就得到了第一类错误率(type-I error):假阳性率=
F
P
T
N
+
F
P
=
α
\frac{FP}{TN+FP}=\alpha
TN+FPFP=α;
同理我们统计假阴性样本占总的阳性样本的比例,就得到了第二类错误率(type-II error):假阴性率=
F
N
T
P
+
F
N
=
β
\frac{FN}{TP+FN}=\beta
TP+FNFN=β。
对应的有两类错误率,我们也可以定义两类正确率,即特异度(Specificity)= S p = T N T N + F P = 1 − α S_p = \frac{TN}{TN+FP} = 1-\alpha Sp=TN+FPTN=1−α ; 灵敏度(Sensitivity)= S n = T P T P + F N = 1 − β S_n = \frac{TP}{TP+FN} = 1-\beta Sn=TP+FNTP=1−β ; S n 和 S p S_n和S_p Sn和Sp用来评判分类结果在各类的正确性。
其它分类效果评估指标
正确率(Accuracy):ACC = (TP+TN)/(TP+FP+TN+FN)
召回率(Recall):Rec =
S
n
S_n
Sn = TP/(TP+FN)
精度(Precision):Pre = TP/(TP+FP);表示预测的准不准
F度量(F-measure):F = 2Rec*Pre/(Rec+Pre);召回率和精度的调和平均
Neyman-Pearson决策
保证某一类错误率为一个固定的水平,在此前提下再考虑另一类错误率尽可能低。假设阳性代表有病,阴性代表没病。则第一类错误率:假阳性率,表示把没病的说成有病;第二类错误率:假阴性率,把有病的说成没病;显然这里的第二类错误率影响更严重,因为如果把有病说成没病,就会使病人错过进一步的治疗,按照最小风险贝叶斯决策的说法就是风险损失更大。
所以常需要保持假阴性率为一个固定的水平
σ
0
\sigma_0
σ0, 在此前提下再追求第一类错误率尽可能低。
设
ω
1
\omega_1
ω1类为阴性,
ω
2
\omega_2
ω2类为阳性,错误率为
P
(
e
)
=
{
P
(
ω
2
∣
x
)
x
∈
ω
1
P
(
ω
1
∣
x
)
x
∈
ω
2
P(e) = \begin{cases} P(\omega_2|\mathbf{x}) \quad \mathbf{x} \in \omega_1 \\ P(\omega_1|\mathbf{x}) \quad \mathbf{x} \in \omega_2\end{cases}
P(e)={P(ω2∣x)x∈ω1P(ω1∣x)x∈ω2
假设样本的类条件概率密度
P
(
x
∣
ω
)
P(\mathbf{x}|\omega)
P(x∣ω), 如下图所示,其中
R
1
R_1
R1和
R
2
R_2
R2是决策区域。
图一
则定义错误率为
P
(
e
)
=
P
(
x
∈
R
1
,
ω
2
)
+
P
(
x
∈
R
2
,
ω
1
)
P(e) = P(\mathbf{x} \in R_1, \omega_2) + P(\mathbf{x} \in R_2, \omega_1)
P(e)=P(x∈R1,ω2)+P(x∈R2,ω1)
=
>
=
P
(
x
∈
R
1
∣
ω
2
)
P
(
ω
2
)
+
P
(
x
∈
R
2
∣
ω
1
)
P
(
ω
1
)
=> \quad = P(\mathbf{x} \in R_1|\omega_2)P(\omega_2) + P(\mathbf{x} \in R_2|\omega_1)P(\omega_1)
=>=P(x∈R1∣ω2)P(ω2)+P(x∈R2∣ω1)P(ω1)
=
>
=
P
(
ω
2
)
∫
R
1
P
(
x
∣
ω
2
)
d
x
+
P
(
ω
1
)
∫
R
2
P
(
x
∣
ω
1
)
d
x
=> \quad = P(\omega_2)\int_{R_1} P(\mathbf{x}|\omega_2)d\mathbf{x} + P(\omega_1)\int_{R_2} P(\mathbf{x}|\omega_1)d\mathbf{x}
=>=P(ω2)∫R1P(x∣ω2)dx+P(ω1)∫R2P(x∣ω1)dx
=
>
=
P
(
ω
2
)
P
2
(
e
)
+
P
(
ω
1
)
P
1
(
e
)
(1)
=> \quad = P(\omega_2)P_2(e) + P(\omega_1)P_1(e) \quad \tag{1}
=>=P(ω2)P2(e)+P(ω1)P1(e)(1)
其中, P 1 ( e ) P_1(e) P1(e)代表第一类错误率(假阳性率), P 2 ( e ) P_2(e) P2(e)代表第二类错误率(假阴性率)。
Neyman-Pearson决策准则为:
min
P
1
(
e
)
s
.
t
.
P
2
(
e
)
=
σ
0
(2)
\min P_1(e) \\ s.t. \quad P_2(e) = \sigma_0 \quad \tag{2}
minP1(e)s.t.P2(e)=σ0(2)
解上述条件极值问题,采用拉格朗日乘子法,把上式的有约束极值问题转化为:
min
γ
=
P
1
(
e
)
+
λ
(
P
2
(
e
)
−
σ
0
)
(3)
\min \gamma = P_1(e) + \lambda(P_2(e) - \sigma_0) \quad \tag{3}
minγ=P1(e)+λ(P2(e)−σ0)(3)
=
>
γ
=
∫
R
2
P
(
x
∣
ω
1
)
d
x
+
λ
(
∫
R
1
P
(
x
∣
ω
2
)
d
x
−
σ
0
)
(4)
=> \quad \gamma = \int_{R_2} P(\mathbf{x}|\omega_1)d\mathbf{x} + \lambda(\int_{R_1} P(\mathbf{x}|\omega_2)d\mathbf{x} - \sigma_0) \quad \tag{4}
=>γ=∫R2P(x∣ω1)dx+λ(∫R1P(x∣ω2)dx−σ0)(4)
又因为
∫
R
2
P
(
x
∣
ω
1
)
d
x
=
1
−
∫
R
1
P
(
x
∣
ω
1
)
d
x
(5)
\int_{R_2} P(\mathbf{x}|\omega_1)d\mathbf{x} = 1 - \int_{R_1} P(\mathbf{x}|\omega_1)d\mathbf{x} \quad \tag{5}
∫R2P(x∣ω1)dx=1−∫R1P(x∣ω1)dx(5)
将其代入式(4)得:
γ
=
1
−
∫
R
1
P
(
x
∣
ω
1
)
d
x
+
λ
∫
R
1
P
(
x
∣
ω
2
)
d
x
−
λ
σ
0
\gamma = 1 - \int_{R_1} P(\mathbf{x}|\omega_1)d\mathbf{x} + \lambda \int_{R_1} P(\mathbf{x}|\omega_2)d\mathbf{x} - \lambda\sigma_0
γ=1−∫R1P(x∣ω1)dx+λ∫R1P(x∣ω2)dx−λσ0
=
>
=
1
−
λ
σ
0
+
∫
R
1
[
λ
P
(
x
∣
ω
2
)
−
P
(
x
∣
ω
1
)
]
d
x
(6)
=> \quad = 1 - \lambda\sigma_0 + \int_{R_1}[\lambda P(\mathbf{x}|\omega_2)-P(\mathbf{x}|\omega_1)]d\mathbf{x} \quad \tag{6}
=>=1−λσ0+∫R1[λP(x∣ω2)−P(x∣ω1)]dx(6)
由上图一可知,
R
1
R_1
R1与
R
2
R_2
R2由决策面
x
=
t
\mathbf{x}=t
x=t分割,所以
min
γ
\min \gamma
minγ,就是求解使
γ
\gamma
γ最小的t,
γ
\gamma
γ是关于
λ
\lambda
λ和t的函数。
∂
γ
∂
λ
=
−
σ
0
+
∫
R
1
P
(
x
∣
ω
2
)
d
x
=
0
(7)
\frac{\partial \gamma}{\partial \lambda} = -\sigma_0 + \int_{R_1}P(\mathbf{x}|\omega_2)d\mathbf{x} = 0 \quad \tag{7}
∂λ∂γ=−σ0+∫R1P(x∣ω2)dx=0(7)
∂
γ
∂
t
=
λ
P
(
x
∣
ω
2
)
−
P
(
x
∣
ω
1
)
=
0
(8)
\frac{\partial \gamma}{\partial t} = \lambda P(\mathbf{x}|\omega_2) - P(\mathbf{x}|\omega_1) = 0 \quad \tag{8}
∂t∂γ=λP(x∣ω2)−P(x∣ω1)=0(8)
=
>
λ
0
=
P
(
x
∣
ω
1
)
P
(
x
∣
ω
2
)
(9)
=> \lambda_0 = \frac{P(\mathbf{x}|\omega_1)}{P(\mathbf{x}|\omega_2)} \quad \tag{9}
=>λ0=P(x∣ω2)P(x∣ω1)(9)
同时当 t = t 0 t=t_0 t=t0为 R 1 R_1 R1和 R 2 R_2 R2的决策面时, 使得式(8) λ P ( x ∣ ω 2 ) − P ( x ∣ ω 1 ) = 0 \lambda P(\mathbf{x}|\omega_2) - P(\mathbf{x}|\omega_1) = 0 λP(x∣ω2)−P(x∣ω1)=0成立, 同时观察式(6),要使得 γ \gamma γ最小,那么 λ P ( x ∣ ω 2 ) − P ( x ∣ ω 1 ) \lambda P(\mathbf{x}|\omega_2) - P(\mathbf{x}|\omega_1) λP(x∣ω2)−P(x∣ω1)应该为负,这样才能更小。
ROC曲线
如果把灵敏度 S n S_n Sn即真阳性率,作为纵坐标,把假阳性率作为横坐标,形成的曲线称为ROC曲线,曲线下的面积即AUC来定量的衡量方法的性能。人们总是希望真阳性率高,假阳性率低。