一、约定
如果:
P(Positive):数据实际上是相关的;
N(Negative):数据实际上是不相关的;
T(True): 数据被检索出来;
F(False): 数据未被检索出来;
那么:是否相关 与 是否被检索到,会有2 x 2 = 4种组合,分别是:
PT:数据实际上是相关的,并且被检索出来;
NT:数据实际上是不相关的,但也被检索出来;
PF:数据实际上是相关的,但是没被检索出来;
NF:数据实际上是不相关的,并且没被检索出来;
二、定义
1、准确率(Accuracy):
衡量在所有的检索中,检索正确(相关的数据被检索出来,不相关的数据不被检索出来)的次数占比。那么所有的检索包括4种情况:PT、NT、PF、NF,而检索正确的却只有PT和NF,所以准确率应该是:
2、精确率(Precision):
衡量在所有有结果的检索中,实际数据是相关的且被检索出来的次数占比。那么所有有结果的检索包括2种情况:PT、NT,而实际数据是相关且被检索出来的却只有PT,所以精确率应该是:
3、召回率(Recall):
也叫”查全率“,更易理解。衡量单次检索中,检索到的真正相关的数据在实际上总相关数据的占比。那么检索到的真正相关数据是:PT,实际上相关总数据是:PT+PF,所以召回率应该是: