我们经常使用精度(正确分类的样本所占的臂力)来评估分类性能,使用来评估回归性能。但是,总结监督模型在给定数据集上的表现有多重方法,这两个指标只是其中两种。在实践中,这些评估指标不能不适用于你的应用。在选择模型和调参时,选择正确的指标是很重要的。
在选择指标时,应该始终牢记机器学习应用的最终目标。
在实践中,我们通常不仅对精确的预测感兴趣,还希望将这些预测结果应用于更大的决策过程。在选择机器学习指标之前,应该考虑应用的高级目标,这通常被称为商业指标。对于一个机器学习应用,选择特定算法的结果被称为商业影响。高级目标可能是避免交通事故或者减少入园人数,有可能是吸引更多的网站用户。在选择模型或调参时,应该选择对商业指标具有最大正面影响的模型或参数。
在开发的初期调参阶段,仅为了测试就将模型投入生产环境往往是不可行的。我们通常需要找到某种替代的评估程序,使用一种更容易计算的评估指标。