从正例中取150+从反例中取150 :
(
C
500
150
)
2
(C_{500}^{150})^2
(C500150)2
10折交叉检验:假设样本分布均匀(每次训练样本中正反例数目一样),所以错误率的期望是50%。
留一法:特殊的交叉验证方法(样本数为m,进行m折交叉验证)错误率为100%
1.BEP 是根据不同分类阀值找到查准率=查全率时的取值
2.而F1是根据不同分类阀值选取的最大F值
3.所以我们不应该把F1中的p和r带入BEP中互相转换,因为他们很可能取的阀值是不同的。
4.对于题目我们可以举一个反例,假设两条P-R曲线在查准率和查全率相等时相交(他们的BEP相等),且两个曲线不相等,会出现F值不同。所以F值高BEP不见得高。
查全率: 真实正例被预测为正例的比例
真正例率: 真实正例被预测为正例的比例
显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例
两者并没有直接的数值关系。
2.5 试证明(2.22) A U C = 1 − l r a n k AUC=1−l_{rank} AUC=1−lrank
2.21这个公式还是挺难看懂的,大概意思是
f
(
x
+
)
<
f
(
x
−
)
记
1
分
,
f
(
x
+
)
=
f
(
x
−
)
记
0.5
分
,
之
后
累
加
。
在
乘
1
m
+
m
−
f(x^+)<f(x^-) 记1分,f(x^+)=f(x^-) 记0.5分,之后累加。在乘\frac{1}{m^+m^-}
f(x+)<f(x−)记1分,f(x+)=f(x−)记0.5分,之后累加。在乘m+m−1
结合ROC曲线的原理,让罚值从高到低变换得到对应的真正率和假正率。
根据AUC公式展开,
A
U
C
=
1
2
∑
i
=
1
m
−
1
(
T
P
i
+
1
T
P
i
+
1
+
F
N
i
+
1
+
T
P
i
T
P
i
+
F
N
i
)
∗
(
F
P
i
+
1
F
P
i
+
1
+
T
N
i
+
1
−
F
P
i
F
P
i
+
T
N
i
)
AUC = \frac{1}{2}\sum_{i=1}^{m-1}(\frac{TP_{i+1}}{TP_{i+1}+FN_{i+1}}+\frac{TP_{i}}{TP_{i}+FN_{i}})*(\frac{FP_{i+1}}{FP_{i+1}+TN_{i+1}}-\frac{FP_{i}}{FP_{i}+TN_{i}})
AUC=21i=1∑m−1(TPi+1+FNi+1TPi+1+TPi+FNiTPi)∗(FPi+1+TNi+1FPi+1−FPi+TNiFPi)
而
T
P
+
F
N
=
m
+
TP+FN=m^+
TP+FN=m+
F
P
+
T
N
=
m
−
FP+TN=m^-
FP+TN=m−
=
=
>
==>
==>
A
U
C
=
1
2
∑
i
=
1
m
−
1
(
T
P
i
+
1
m
+
+
T
P
i
m
+
)
∗
(
F
P
i
+
1
m
−
−
F
P
i
m
−
)
AUC = \frac{1}{2}\sum_{i=1}^{m-1}(\frac{TP_{i+1}}{m^+}+\frac{TP_{i}}{m^+})*(\frac{FP_{i+1}}{m^-}-\frac{FP_{i}}{m^-})
AUC=21i=1∑m−1(m+TPi+1+m+TPi)∗(m−FPi+1−m−FPi)
= = > ==> ==>
A U C = 1 m + m − ∑ i = 1 m − 1 { 0 新增样本预测为真正 T P i 新增样本预测为假正 AUC=\frac{1}{m^+m^-}\sum_{i=1}^{m-1} \begin{cases} 0& \text{新增样本预测为真正}\\ TP_i& \text{新增样本预测为假正} \end{cases} AUC=m+m−1i=1∑m−1{0TPi新增样本预测为真正新增样本预测为假正
如下图所示,一个单位的矩形面积为 1 m + m − \frac{1}{m^+m^-} m+m−1,三角形面积为 1 2 ∗ 1 m + m − \frac{1}{2}*\frac{1}{m^+m^-} 21∗m+m−1。并且只有水平和倾斜线段上是有面积的。
1.当正例预测值小于负例时,1个单位水平线段线上矩形个数为
m
+
−
T
P
i
+
1
m^+-TP_i+1
m+−TPi+1
2.当正例预测值等于负例时,线段倾斜线上矩形个数为
m
+
−
T
P
i
+
1
/
2
m^+-TP_i+1/2
m+−TPi+1/2
同理这就验证了罚分的概念,所以
l
r
a
n
k
l_{rank}
lrank可转化为:
l r a n k = 1 m + m − ∗ ( m + m − − ∑ i = 1 m − 1 { 0 新增样本预测为真正 T P i 新增样本预测为假正 ) l_{rank}=\frac{1}{m^+m^-}*(m^+m^--\sum_{i=1}^{m-1} \begin{cases} 0& \text{新增样本预测为真正}\\ TP_i& \text{新增样本预测为假正} \end{cases}) lrank=m+m−1∗(m+m−−i=1∑m−1{0TPi新增样本预测为真正新增样本预测为假正)
错误率可由代价-混淆矩阵得出;
ROC曲线基于TPR与FPR表示了模型在不同截断点取值下的泛化性能。
ROC曲线上的点越靠近(1,0)学习器越完美,但是常需要通过计算等错误率来实现P、R的折衷,而P、R则反映了我们所侧重部分的错误率。
ROC曲线的点对应了一对(TPR,FPR),即一对(FNR,FPR),由此可得一条代价线段(0,FPR)–(1,FNR),由所有代价线段构成簇,围取期望总体代价和它的边界–代价曲线。所以说,ROC对应了一条代价曲线,反之亦然。