今天迷瞪的实验室讨论了半天这玩意。写个博客来增强一下老年人的记忆吧。
首先,常见的评价指标有:
- 准确率
- 精确率
- 召回率
- F1-Measure
评价指标的意义 及计算方法
1 准确率
给定的测试数据集,判断对的样本个数,占总样本个数的比例。
2 TP FN FP TN含义
precision,recall和f1-measure之前,我们需要先需要定义TP,FN,FP,TN四种分类情况.
- TP true positive 正类被分为正类的个数
- FN false negative 正类被分为负类的个数
- FP false positive 负类被分为正类的个数
- TN true positive 负类被分为负类的个数
3 精确率
意义:正确被分为正类的个数(TP)占所有分为正类的比例(TP+FP)
p
=
p =
p=
T
P
T
P
+
F
P
\frac{TP}{TP+FP}
TP+FPTP
4 召回率
意义:正确被分为正类的个数(TP)占样本中所有正类的比例(TP+FN)
p
=
p =
p=
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP
5 F1-measure
意义:F1-measure是精确值和召回率的调和均值。
我们希望检索结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低( t p = = 1 tp==1 tp==1 f p = = 0 fp==0 fp==0 , f n = 很 大 fn = 很大 fn=很大, t n = = 0 tn==0 tn==0);而如果我们把所有结果都返回(全部都检索到了,不过检索到不相关的也有很多,即fp很大,fn==0),那么必然R是100%,但是P很低。
那么,如果需要综合考虑的咋整?
F-Measure是Precision和Recall加权调和平均:
p
=
p =
p=
(
a
2
+
1
)
P
∗
R
a
2
(
P
+
R
)
\frac{(a^2+1)P * R}{a^2(P+R)}
a2(P+R)(a2+1)P∗R
当
a
=
=
1
a==1
a==1时,就是F1-SCORE
p
=
p =
p=
2
∗
P
∗
R
P
+
R
\frac{2*P * R}{P+R}
P+R2∗P∗R
很容易理解,F1综合了P和R的结果,当F1较高时则比较说明实验方法比较理想。
大概就这样吧~