机器学习笔记（5）——模型评价指标

最新推荐文章于 2024-06-30 19:38:35 发布

朝荣

最新推荐文章于 2024-06-30 19:38:35 发布

阅读量3.8k

点赞数 2

分类专栏： # 机器学习文章标签：机器学习评价指标 F1值 PR曲线 ROC曲线

本文链接：https://blog.csdn.net/weixin_40695088/article/details/122300176

版权

机器学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

本文详细介绍了机器学习中常用的模型评价指标，包括精确率、召回率、准确率、错误率及其在混淆矩阵中的体现。特别讨论了F1值作为精确率和召回率平衡点的重要性，并探讨了PR曲线和ROC曲线的适用场景及优缺点。此外，还解释了AUC值的含义和作用，强调了在类别不平衡数据集中的选择。这些指标和曲线对于评估和优化模型性能至关重要。

摘要由CSDN通过智能技术生成

机器学习笔记（5）——模型评价指标

本文部分图片来源网络或学术论文，文字部分来源网络与学术论文，仅供学习使用。

1、精确率、召回率、准确率、错误率

混淆矩阵

首先需要了解模型预测结果得到的混淆矩阵。

Actual positive

Actual negative

Predicted positive

TP (true positive)

真阳性

FP (false positive)

假阳性

Predicted negative

FN (false negative)

假阴性

TN (true negative)

真阴性

（Positive与Negative是预测标签，True与false代表预测正误。）

TP (真正，True Positive)表示真实结果为正例，预测结果也是正例;

FP (假正，False Positive)表示真实结果为负例，预测结果却是正例;

TN (真负，True Negative)表示真实结果为正例，预测结果却是负例;

FN (假负，False Negative)表示真实结果为负例，预测结果也是负例。

不难发现四者满足以下关系式：TP＋FP＋FN＋TN=样本总数；FN+TP=TN+FP

各个指标的对比

有上述混淆矩阵可以得到几个评价指标：准确率、精确率、灵敏度（召回率）、特异度几个指标。

指标	公式	含义	适用范围
准确率（accuracy）		真实为positive的占所有所有预测总数的比例	二分类、多分类
错误率（errorrate）		真实为negative的占所有所有预测总数的比例	二分类、多分类
召回率(R值) （recall）灵敏度（sensitivity）		真实positive被预测为positive的比例	二分类
精确率(P值) （precision）		模型预测为positive中真实的positive比例	二分类
特异性（specific）		真实negative被预测为negative的比例	二分类
F1值		F1值是精确率P值和召回率R值的调和均值	二分类
AUC值		随机给定一个正样本和一个负样本，分类器输出该正样本为正的那个概率值比分类器输出该负样本为正的那个概率值要大的可能性。	二分类

注意：

精确率和召回率是二分类指标，不适用多分类，由此得到P-R曲线以及ROC曲线均是二分类评估指标（因为其横纵轴指标均为二分类混淆矩阵计算得到）。

准确率适用于多分类评估。（可以将多分类问题转换为二分类问题进行求解，将关注的类化为一类，其他所有类化为一类）。

2、F1值

为什么选择F1值？

理想情况下，精确率和召回率两者都越高越好。然而事实上这两者在某些情况下是矛盾的，精确率高时，召回率低；精确率低时，召回率高，此时需要调和P值和R值。

F值的定义：

F函数是一个常用指标，F值是精确率和召回率的调和均值，F值可泛化为对精确率和召回率赋不同权值进行加权调和：

利用α给P和R赋予不同的权重，若α=1则为F1值，即

地震的预测对于地震的预测，我们希望的是recall非常高，也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲precision。情愿发出1000次警报，把10次地震都预测正确了；也不要预测100次对了8次漏了两次。此时，我们就只看recall=99.9999%（地震全中）时的precision，其他指标就变得没有了意义。

嫌疑人定罪基于不错怪一个好人的原则，对于嫌疑人的定罪我们希望是非常准确的。及时有时候放过了一些罪犯（recall低），但也是值得的。对于分类器来说，本质上是给一个概率，此时，我们再选择一个CUTOFF点（阀值），高于这个点的判正，低于的判负。那么这个点的选择就需要结合你的具体场景去选择。

3、PR曲线
PR曲线：横坐标是召回率R值，纵坐标是精确率P值

PR曲线适用范围（优缺点）：

优点：

利用ＲＯＣ曲线对不同模型进行比较。
如果一个模型的ＲＯＣ曲线被另一个模型的曲线完全包住，则可断言后者的性能由于前者，否则较难比较。
因为ROC曲线很容易画，ROC曲线下的面积也比较容易计算。

缺点：

如果数据中类别分布不均衡，ROC不再适用。
当两个模型的ＲＯＣ曲线发生交叉，则很难说哪一个模型更好，这时候可以用ＡＵＣ来作为一个比较合理的判据。
precision与Recall的折中(trade off)，曲线越靠近右上角性能越好，曲线下的面积叫AP分数，能在一定程度上反应模型的精确率和召回率都很高的比例。
先看平滑不平滑，在看谁上谁下（同一测试集上），一般来说，上面的比下面的好（红线比黑线好）。
看平衡点，上图红色线代表的模型的平衡点要大于黑色线模型代表的平衡点，表明前者优于后者。
因为P值、R值用来评价二分类模型效果，因此PR曲线也只能评价二分类模型。

PR曲线怎么看？

precision与Recall的折中(trade off)，曲线越靠近右上角性能越好，曲线下的面积叫AP分数，能在一定程度上反应模型的精确率和召回率都很高的比例。
先看平滑不平滑，在看谁上谁下（同一测试集上），一般来说，上面的比下面的好（红线比黑线好）。
看平衡点，上图红色线代表的模型的平衡点要大于黑色线模型代表的平衡点，表明前者优于后者。

4、ROC曲线

ROC曲线：横坐标（x轴）是假阳性率、纵坐标（y轴）是真阳性率。

真阳性率（TPR）和假阳性率（FPR）的公式如下：

同时，TPR与FPR又有其他名称，如下：

敏感度 sensitivity = 召回率recall = true positive rate

特异性 specificity = 1- false positive rate

ROC曲线怎么看？

当数据量少时，绘制的ROC曲线不平滑；当数据量大时，绘制的ROC曲线会趋于平滑。

ROC曲线越靠近左上角性能越好。左上角坐标为(0, 1)，即假阳性率FPR=0，真阳性率TPR=1，根据FPR和TPR公可以得知，此时FN=0， FP=0，模型对所有样本分类正确。

一般来说，如果ROC是光滑的，那么基本可以判断没有太大的overfitting，这个时候调模型可以只看AUC，面积越大一般认为模型越好。

ROC曲线的主要作用：

ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
有助于选择最佳的阈值。ROC曲线越靠近左上角，模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值，其假正例和假反例总数最少。
可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中，直观地鉴别优劣，靠近左上角的ROC曲所代表的学习器准确性最高。

ROC曲线的优点：

方法简单、直观、通过图示可观察分析方法的准确性，并可用肉眼作出判断。ROC曲线将真正例率和假正例率以图示方法结合在一起，可准确反映某种学习器真正例率和假正例率的关系，是检测准确性的综合代表。
在生物信息学上的优点：ROC曲线不固定阈值，允许中间状态的存在，利于使用者结合专业知识，权衡漏诊与误诊的影响，选择一个更加的阈值作为诊断参考值。