混淆矩阵及绘图

最新推荐文章于 2025-03-25 19:50:46 发布

wait_for_eva

最新推荐文章于 2025-03-25 19:50:46 发布

阅读量4.4w

点赞数 40

分类专栏： python

本文链接：https://blog.csdn.net/wait_for_eva/article/details/82355038

版权

混淆矩阵

当说到召回率的时候就说到了混淆矩阵。

再回顾一下召回率吧，案例中有100个正例，猜中(预测对)了59个，我们就说召回率为59%。

召回率就是猜中率。

当时也讲到，正例和反例，加上猜中和猜错，总共有四种情况

所谓召回率，仅仅是其中的四分之一。在条件允许(资本充足)的情况下，我们关心的，也是实际有用的，的确是召回率。

但是实际条件并不允许我们这么单一，现实对我们的要求不仅是增加猜中的概率，也需要降低猜错的概率。

同时，关键的一个隐蔽点，在于数量的限制，50个男生，50个女生，我猜全部是男生，就会发现这种奇葩情况：

召回率100%，但是其他分布惨不忍睹。

隐藏的，就是可以猜的个数。

当然，我们可以把猜的个数做一个限制，但是这只是在已知的情境下才有具体的作用，位置的情况下，谁也说不准100个人中到底有多少个男生，多少个女生，可取的范围的确是[0,100]。

综上所述，对于一个模型的评估，所谓的召回率只能是在其他情况下都"不太差"的情况下才有对比的意义，或者说是只在乎"召回率"，也就是错杀一千也不放过一个，不在乎浪费和消耗的情况下才有追逐的价值。

普遍的情况，追求的当然是全面，用最少的资源做最多的事情。也就是说，我们需要对样本的分布和预测的分布进行综合的考量，从各方面对模型进行评估和约束，才能够达到预期的目标。

而上面的2*2的分布表格，就是我们所谓的混淆矩阵。

当样本分布为3类的时候，猜测也为3类