召回率(Recall)、正确率(Precision)
召回率
- 召回率 :返回结果中相关文档数目占所有相关文档数目的比例
- 计算公式 R e c a l l = R R R R + N R Recall = {RR \above{2pt} RR+NR} Recall=RR+NRRR
正确率
- 正确率:返回结果中相关文档数占返回结果数目的比例
- 计算公式 P r e c i s i o n = R R R R + R N Precision = {RR \above{2pt} RR+RN} Precision=RR+RNRR
有趣的讨论
- “宁可错杀一千,不可放过一人” ——>偏重召回率,忽视正确率。冤杀太多。
- 判断是否有罪:
- 如果没有证据证明你无罪,那么判定你有罪。——> 召回率高,有些人受冤枉
- 如果没有证据证明你有罪,那么判定你无罪。——> 召回率低,有些人逍遥法外
- 虽然召回率和正确率都很重要,但是在不同用户的时候要求不同。
- 垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定为垃圾邮件
- 有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。
精确率(Accuracy)
- 计算公式 A c c u r a c y = R R + N N R N + R R + N R + N N Accuracy = {RR+NN \above{2pt} RN+RR+NR+NN} Accuracy=RN+RR+NR+NNRR+NN
- 不适用于IR系统。由于和查询相关毕竟占文档集的极少数,所以即使什么都不返回也会得到很高的精确率-