在机器学习领域,大多数常见问题通常会有多个模型可供选择。每个模型会有自己的特性,并会受到不同因素的影响而表现不同。
每个模型的好坏是通过评价它在某个数据集上的性能来判断的,这个数据集通常被叫做“验证/测试”数据集。这个性能由不同的统计量来度量,包括准确率( accuracy )、精确率( precision )、召回率( recall )等等。选择我们会根据某个特定的应用场景来选择相应的统计量。而对每个应用来说,找到一个可以客观地比较模型好坏的度量标准至关重要。
平均精度均值是目标检测问题中最常用的度量标准
准确率(查准率、查全率)Precision:
召回率 Recall:
把recall当成横坐标,precision当成纵坐标,即可得到常用的precision-recall曲线,这条曲线是单调递减的。
AP的计算是:首先设定一组阈值,[0, 0.1, 0.2, …, 1]。