对学习器的泛化性能评估,衡量模型泛化能力的评价标准,即性能度量(performance measure)。这里主要介绍查准率(precision,又叫准确率),查全率(recall,又叫召回率)F1值以及一些思考。
首先介绍分类结果混淆矩阵:
![eed51763357e0d2cc98b9ddbf2094f8f.png](https://i-blog.csdnimg.cn/blog_migrate/454c3f823ea3e233d97fa6ae68fc2b5a.png)
查准率:
查全率:
引入下自己的思考,如何理解查准率和查全率的矛盾关系:
- 首先客观上而言,偏于保守的模型可能P较大,但R较小;而偏风险的模型可能R很大,对应P很小。极端情况下,P的提升对应模型的极度过拟合,而R的提升对应模型的极度欠拟合。综合考虑P和R才能使模型得到有效性的提升。理想情况下,P和R可以同时到100%。
- 假设样本中正例数量固定为X=100,预测正确的正例数量Y<=X。查全率为
,查准率
,Z为预测的样本数量。在保证查全率为100%情况下,必须保证
,否则面临着查准率的下降。
- 保证查全率和查准率在同一水平相对容易,但在一者确定的情况下提升另一者十分难(或区间选择小)。例如在查全率为80%前提下,Y=0.8X,若保证查准率为80%,只需Z=X,即预测的样本数量等于正例的样本数量。但若查全率为20%,保证查准率为80%,需要Z=0.25X。同样需要保证查准率为80%,后者需要分类器在0.25倍正例样本数量基础下,可见达到查准率的目标要大于前者。
针对F1值,
为什么是调和平均数呢,引用下霍华德对调和平均数的见解。
调和平均非常广泛的存在于世界的各种角落。调和平均的哲学意义是在一个过程中有多
少条平行的路径,经过这些平行的路径后,等效的结果就是调和平均。举几个栗子。
电阻并联:电阻 A 和 B 并联,这时电流有两个选择,经过电阻 A 或经过电阻 B,这两个路
径是平行的,最后的等效结果就调和平均。
如何理解与应用调和平均数? - 霍华德的回答 - 知乎 https://www. zhihu.com/question/2309 6098/answer/195539778
显然模型优劣评价在查全率和查准率的路径选择和和电流在电阻面前的选择相似,当其中一个电阻较小,另一个电阻想得到更多电流无疑更加困难。