【监督学习——分类算法及其评估指标：准确率、精确率、召回率、PR曲线和F1值】

最新推荐文章于 2024-04-20 10:06:39 发布

沿着星河轨迹，踏遍人间山河

最新推荐文章于 2024-04-20 10:06:39 发布

阅读量2.2k

点赞数 55

文章标签：分类深度学习

本文链接：https://blog.csdn.net/m0_73801901/article/details/136501318

版权

监督学习

监督学习（Supervised Learning）是机器学习中的一种类型，其中模型通过学习输入到输出的映射来做出预测。在监督学习中，我们有一个由标签或已知结果的数据集进行训练。这个训练数据集包含输入数据和相应的正确输出。模型通过学习这些数据来进行预测。监督学习的主要应用有回归和分类。今天我们就来讨论一下分类算法及其评估标准。

监督学习——分类算法

监督学习最大的特点就是数据集有标签，而监督学习中的分类算法就是对样本进行一个预测，以达到分类的效果。举一个简单的例子：比如有一个动物图片的数据集，其中包含猫和狗，用这个数据集训练一个算法模型，当这个模型再“看到”一张猫或者狗的图片时，能做出一个预测来预测图片中的动物是猫还是狗，以达到分类的目的，这就是监督学习中分类算法的实现过程。

评估标准

那么我们怎么来判断这个算法模型的好坏呢？有同学就会说了：直接看预测结果对不对不就行了。这种方法虽然简单粗暴但是确实有效，但是我们现实中的数据量是十分庞大的，分类的对象也是五花八门不可能是简单的猫和狗，所以说想单纯的依靠人力来完成对模型的评估是几乎不可能的。而且就算真的有人爆肝完成了，没有统一的标准，每个人都说自己的模型好王婆卖瓜自卖自夸，那场面咱都不敢想象。所以有一个统一的、科学的评估标准是有必要的。

TP、FP、TN、FN

上面我们说了需要一个统一的、科学的评估指标，那这个指标是怎么来的，我们还得看回算法模型的本身。还是上面的例子：我们假设想要预测的目标是猫，那么在数据集中猫就是正样本（Positive），其他的数据就是负样本（Negative），接下来算法模型把猫预测为猫预测模型就是对的（True），模型算法把猫预测为其他预测结果就是错的（False）。根据上面的说法我们就可以得到：TP、FP、TN、FN几个参数。详解如下：
TP：实际是正样本同时预测为正样本
FP：实际为负样本同时预测为负样本
TN：实际为负样本同时预测为负样本
FN：实际为负样本同时预测为正样本
在这里插入图片描述

准确率（Accuracy）

我们在了解了TP、FP、TN、FN四个参数之后就可以真正对模型进行评估了。首先我们想知道一个模型预测的好不好那么首当其冲就是看这个模型预测的准不准确也就是准确率。准确率就是预测对的样本数比上总的样本数，也就是TP+TN/FP+FN+TP+TN（好长的公式，这边个人建议是理解而不是死记）
在这里插入图片描述
但是准确率有一个致命的问题：虽然准确率可以判断总的正确率，但是在样本不平衡的情况下，并不能作为很好的指标来衡量结果。举个简单的例子，比如在一个总样本中，正样本占90%，负样本占10%，样本是严重不平衡的。对于这种情况，模型只需要将全部样本预测为正样本即可得到 90%的高准确率，但实际上我们并没有很用心的分类，只是随便无脑一分而已。这就说明了:由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效。所以说模型的评估指标就不能只有准确率一个。

精确率（Precision）

由于准确率在一定情况下存在问题，所以我们还有一个指标那就是精确率。精确率简单来说就是正样本的准确率，也就是所有被预测为正样本中实际为正样本的概率

在这里插入图片描述

召回率（Recall）

为了适应更多的场景我们的评判标准还有召回率，召回率简单来说就是它衡量了所有实际为正类的样本中，有多少比例被模型正确地识别出来，尤其在那些“宁可错杀一千，也不放过一个”的应用场景中非常关键。以下是一些具体的应用场景：
医疗诊断：在癌症筛查等医疗领域，召回率高意味着能够尽可能多地识别出所有实际患有疾病的人。尽管这可能导致更多的误诊（即健康人被错误地诊断为患病），但错过任何一个真正的病例可能会对患者的健康造成严重影响。
在这里插入图片描述

PR曲线和F1值

把精确率和召回率之间的关系用图像表示出来就是PR图，如下：
在这里插入图片描述
PR曲线的形状可以反映出模型在不同阈值下的性能变化。理想情况下，我们希望模型在整个召回率范围内都能保持较高的精确率，这在PR曲线上表现为接近左上角的曲线。如果曲线快速下降至接近横轴，则表明模型在提高召回率的同时，精确率下降得很快，这可能意味着模型在识别正类样本时存在较多误判。

此外，PR曲线下的面积（PR-AUC）也是一个重要的指标，它量化了模型的整体性能。PR-AUC的值越大，表明模型在各种召回率水平下的平均精确率越高，模型的性能越好。

F1值是精确率和召回率的调和平均数。这意味着F1分数是在精确率和召回率之间寻求平衡的结果。它的计算公式为：F1 = (2 × Precision × Recall) / (Precision + Recall)
在这里插入图片描述
有时候在实际问题上，若我们更加看重其中某一个度量，还可以给它加上一个权值α，称为F_α-度量:

F1分数是一个综合考量模型精确率和召回率的指标，它在评估分类模型特别是面对不平衡数据集时的性能方面具有重要的应用价值。通过优化模型以提高F1分数，可以使得模型在实际应用中更加可靠和有效。

小结

以下是对这些指标的总结：

准确率（Accuracy）：

定义：模型正确预测的样本数占总样本数的比例。
适用场景：类别平衡的情况，即正负样本数量相近时。
精确率（Precision）：

定义：被模型预测为正类的样本中实际为正类的比例。
关注点：模型预测正类的准确性。
召回率（Recall）：

定义：所有实际为正类的样本中被模型正确预测出的比例。
关注点：模型对正类样本的覆盖能力。
PR曲线（Precision-Recall Curve）：

定义：通过绘制精确率和召回率的关系来展示模型性能的图表。
适用场景：正负样本不平衡的情况，可以直观地看到模型在识别正类样本时的性能。
F1值（F1 Score）：

定义：精确率和召回率的调和平均数。
特点：综合考虑了模型的精确性和覆盖性，是评估模型性能的一个综合性指标。
在选择评估指标时，需要根据具体的应用场景和需求进行判断。例如，在医疗诊断等领域，召回率的重要性可能会高于精确率，因为错过任何一个真正例都可能带来严重后果。而在垃圾邮件过滤等应用中，可能更关注精确率，以避免将正常邮件错误分类为垃圾邮件。

总之，了解和选择合适的评估指标对于分类算法的性能评估至关重要。在面对不同的数据分布和应用场景时，应该综合考虑各个指标，以便更全面地评价模型的性能。

沿着星河轨迹，踏遍人间山河

关注

55
点赞
踩
51

收藏

觉得还不错? 一键收藏
0
评论
【监督学习——分类算法及其评估指标：准确率、精确率、召回率、PR曲线和F1值】

还是上面的例子：我们假设想要预测的目标是猫，那么在数据集中猫就是正样本（Positive），其他的数据就是负样本（Negative），接下来算法模型把猫预测为猫预测模型就是对的（True），模型算法把猫预测为其他预测结果就是错的（False）。举一个简单的例子：比如有一个动物图片的数据集，其中包含猫和狗，用这个数据集训练一个算法模型，当这个模型再“看到”一张猫或者狗的图片时，能做出一个预测来预测图片中的动物是猫还是狗，以达到分类的目的，这就是监督学习中分类算法的实现过程。监督学习的主要应用有回归和分类。
复制链接

扫一扫