- 信息检索中,我们经常会关系“检索出的信息有多少比例是用户感兴趣的”以及“用户感兴趣的信息中有多少被检索出来了”,用精度和错误率就描述出来了,这就需要引入准确率(precision,亦称查准率)和召回率(recall,亦称查全率)。
准确率
预测结果中,究竟有多少是真的正?(找出来的对的比例)
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP
召回率
所有正样本中,你究竟预测对了多少?(找回来了几个)
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
- 一般来说,我们希望上述两个指标都是越高越好,然而没有这么好的事情,准确率和召回率是一对矛盾的度量,一个高时另一个就会偏低.
- 当我们根据学习器的预测结果对样例进行排序(排在前面的是学习器认为“最可能”是正例的样本),然后按此顺序依次吧样本喂给学习器,我们把每次的准确率和召回率描出来就会得到一个P-R曲线(称为P-R图)
- 如果一个学习器的P-R被另一个学习器的该曲线包围,则可以断言后面的要好些。
- 平衡点(Break-Even Point, BEP)
就是找一个 准确率 = 召回率 的值,就像上面的图那样。