各种分类指标的通俗理解 +相似度的通俗理解

最新推荐文章于 2022-10-26 20:03:30 发布

统计分析分析

最新推荐文章于 2022-10-26 20:03:30 发布

阅读量1k

点赞数

分类专栏：模型综述

本文链接：https://blog.csdn.net/qq_36303521/article/details/88322620

版权

本文介绍了分类指标如准确率、查全率、查准率和F1分数，并以医院看病为例解释其应用场景。同时，讲解了常见的相似度计算方法，包括Minkowski距离、Jaccard指数、余弦相似度以及KL散度，阐述了它们在不同场景下的应用。

摘要由CSDN通过智能技术生成

如果那个类型不重要，只关心他的准确率
那么可以考虑使用准确率

如果不是那么考虑以下的指标。
混淆矩阵
在这里插入图片描述
上面这些怎么记呢？预测对错+预测结果。
比如True Positive 就是预测对了，预测为正。很符合西方人的思维，先说结果再说原因。而中国人呢，就是先说原因，再说结果。

查全率recall：实际为正的样本里面预测为正的比例
查准率preision：预测为正的样本里面实际为正的比例
那么什么情况下会用上面两个指标呢？
查全率，比较关心这个正样本有没有全查出来。
查准率，比较关心这个预测的正样本准不准。
说人话就是。假如某人去医院看病，然后被查出来癌症晚期，然后他现在关心这个机器的查准率。如果查准率为零，那就意味着这个预测的正样本根本不准。他就很开心。而医院呢就比较关心，查全率。因为正样本没有被检查出来的话，谁会来这个看病，对不对，这个手术没有人做，药也没有人吃，医院都没有收入了。所以医院会比较关心正样本有没有全查出来。

F1：就是precision和recall的调和平均值，更接近precision和recall中较小的一个。这个就是属于两手抓两手都要硬的。政府可能会比较关心这个。
F1倒数的两倍等于precision的倒数加上recall的倒数