机器学习中用什么评价分类结果？

最新推荐文章于 2023-06-30 11:00:00 发布

猫小咪编程

最新推荐文章于 2023-06-30 11:00:00 发布

阅读量1k

点赞数 5

分类专栏：机器学习面试

原文链接：https://mp.weixin.qq.com/s?__biz=MzI4MjkzNTUxMw==&mid=2247483795&idx=1&sn=7cd746ea16b5643e720d5554a5811459&chksm=eb932825dce4a133150b2c298c75a4214c252c4975c567eca13e42a1d8ac860eb4aed4217536&mpshare=1&scene=1&srcid=&sharer_sharetime=1584318537802&sharer_sh

版权

机器学习面试专栏收录该内容

15 篇文章 22 订阅

订阅专栏

我们在机器学习中如何评价一个算法的好坏呢？对于一个回归问题，可以使用MSE、RMSE、MAE、R方。对于一个分类问题，可以使用分类精准度。但是实际上，分类精准度是存在陷阱的，有时候我们会需要更加全面的信息。

1.1 分类准确度够用么？

分类准确度在评价分类算法时，会有很大的问题的。分类算法的评价要比回归算法多很多。
对于一个癌症预测系统，输入检查指标，判断是否患有癌症，预测准确度99.9%。这个系统是好是坏呢？
如果癌症产生的概率是0.1%，那其实根本不需要任何机器学习算法，只要系统预测所有人都是健康的，即可达到99.9%的准确率。也就是说对于极度偏斜(Skewed Data)的数据，只使用分类准确度是不能衡量。
这时就需要使用混淆矩阵(Confusion Matrix)做进一步分析。

1.2 混淆矩阵

对于二分类问题来说，所有的问题被分为0和1两类，混淆矩阵是2*2的矩阵：
在这里插入图片描述

TN：真实值是0，预测值也是0，即我们预测是negative，预测正确了。
FP：真实值是0，预测值是1，即我们预测是positive，但是预测错误了。
FN：真实值是1，预测值是0，即我们预测是negative，但预测错误了。
TP：真实值是1，预测值是1，即我们预测是positive，预测正确了。

现在假设有1万人进行预测，填入混淆矩阵如下：
对于1万个人中，有9978个人本身并没有癌症，我们的算法也判断他没有癌症；有12个人本身没有癌症，但是我们的算法却错误地预测他有癌症；有2个人确实有癌症，但我们算法预测他没有癌症；有8个人确实有癌症，而且我们也预测对了。

因为混淆矩阵表达的信息比简单的分类准确度更全面，因此可以通过混淆矩阵得到一些有效的指标。

2.1精准率和召回率
根据混淆矩阵可以求得指标：
在这里插入图片描述精准率：
即精准率为8/(8+12)=40%。所谓的精准率是：分母为所有预测为1的个数，分子是其中预测对了的个数，即预测值为1，且预测对了的比例。

为什么管它叫精准率呢？在有偏的数据中，我们通常更关注值为1的特征，比如“患病”，比如“有风险”。在100次结果为患病的预测，平均有40次预测是对的。即精准率为我们关注的那个事件，预测的有多准。

召回率：
在这里插入图片描述
即召回率为8/(8+2)=80%。所谓召回率是：所有真实值为1的数据中，预测对了的个数。每当有100个癌症患者，算法可以成功的预测出8个。也就是我们关注的那个事件真实的发生情况下，我们成功预测的比例是多少。

那么为什么需要精准率和召回率呢？还是下面的这个例子，有10000个人，混淆矩阵如下：
在这里插入图片描述如果我们粗暴的认为所有人都是健康的，那算法的准确率是99.78%，但这是毫无意义的。如果算精准率则是40%，召回率是80%。

获取模型分类结果的混淆矩阵的相关API：

import sklearn.metrics as sm
sm.confusion_matrix(实际输出, 预测输出)->混淆矩阵

2.2更关注哪个？

精准率（查准率）：预测值为1，且预测对了的比例，即：我们关注的那个事件，预测的有多准。

召回率（查全率）：所有真实值为1的数据中，预测对了的个数，即：我们关注的那个事件真实的发生情况下，我们成功预测的比例是多少。

有的时候，对于一个算法而言，精准率高一些，召回率低一些；或者召回率高一些，精准率低一些。那么如何取舍呢？

其实在衡量机器学习的其他指标中，我们也需要进行取舍，通常只需要把握一个原则：

视场景而定。

比如我们做了一个股票预测系统，未来股票是📈还是📉这样一个二分类问题。很显然“涨”才是我们关注的焦点，那么我们肯定希望：系统预测上涨的股票中，真正上涨的比例越大越好，这就是希望查准率高。那么我们是否关注查全率呢？在大盘中有太多的真实上涨股票，虽然我们漏掉了一些上升周期，但是我们没有买进，也就没有损失。但是如果查准率不高，预测上涨的结果下跌了，那就是实实在在的亏钱了。所以在这个场景中，查准率更重要。

当然也有追求召回率的场景，在医疗领域做疾病诊断，如果召回率低，意味着本来有一个病人得病了，但是没有正确预测出来，病情就恶化了。我们希望尽可能地将所有有病的患者都预测出来，而不是在看在预测有病的样例中有多准。

但是，在实际业务场景中，也有很多没有这么明显的选择。那么在同时需要关注精准率和召回率，如何在两个指标中取得平衡呢？在这种情况下，我们使用一种新的指标：F1 Score。

2.3二者兼顾 F1 Score

如果要我们综合精准率和召回率这两个指标，我们可能会想到取平均值这样的方法。F1 Score的思想也差不多：
F1 Score 是精准率和召回率的调和平均值。
在这里插入图片描述
什么是调和平均值？为什么要取调和平均值？调和平均值的特点是如果二者极度不平衡，如某一个值特别高、另一个值特别低时，得到的F1 Score值也特别低；只有二者都非常高，F1才会高。这样才符合我们对精准率和召回率的衡量标准。
在这里插入图片描述
3.1ROC曲线
在了解ROC曲线之前，先看三个概念：分类阈值、TPR和FPR
3.1.1 分类阈值

分类阈值，即设置判断样本为正例的阈值thr，

如果某个逻辑回归模型对某封电子邮件进行预测时返回的概率为 0.9995，则表示该模型预测这封邮件非常可能是垃圾邮件。相反，在同一个逻辑回归模型中预测分数为 0.0003 的另一封电子邮件很可能不是垃圾邮件。可如果某封电子邮件的预测分数为 0.6 呢？为了将逻辑回归值映射到二元类别，您必须指定分类阈值（也称为判定阈值）。如果值高于该阈值，则表示“垃圾邮件”；如果值低于该阈值，则表示“非垃圾邮件”。人们往往会认为分类阈值应始终为 0.5，但阈值取决于具体问题，因此您必须对其进行调整。

在sklearn中有一个方法叫：decision_function，即返回分类阈值

decision_scores = log_reg.decision_function(X_test)
y_predict = np.array(decision_scores >= 5, dtype='int')

我们知道，精准率和召回率这两个指标有内在的联系，并且相互冲突。precision随着threshold的增加而降低，recall随着threshold的增大而减小。如果某些场景需要precision，recall都保持在80%，可以通过这种方式求出threshold

3.1.2TPR
TPR：预测为1，且预测对了的数量，占真实值为1的数据百分比。很好理解，就是召回率。
在这里插入图片描述

3.1.3 FPR
FPR:预测为1，但预测错了的数量，占真实值不为1的数据百分比。与TPR相对应，FPR除以真实值为0的这一行所有的数字和。
在这里插入图片描述 TPR和FPR之间是成正比的，TPR高，FPR也高。ROC曲线就是刻画这两个指标之间的关系。

3.2 什么是ROC曲线
ROC曲线（Receiver Operation Characteristic Cureve），描述TPR和FPR之间的关系。x轴是FPR，y轴是TPR。

我们已经知道，TPR就是所有正例中，有多少被正确地判定为正；FPR是所有负例中，有多少被错误地判定为正。分类阈值取不同值，TPR和FPR的计算结果也不同，最理想情况下，我们希望所有正例 & 负例都被成功预测 TPR=1，FPR=0，即所有的正例预测值 > 所有的负例预测值，此时阈值取最小正例预测值与最大负例预测值之间的值即可。

TPR越大越好，FPR越小越好，但这两个指标通常是矛盾的。为了增大TPR，可以预测更多的样本为正例，与此同时也增加了更多负例被误判为正例的情况。
sklearn中的ROC曲线：

from sklearn.metrics import roc_curve

fprs, tprs, thresholds = roc_curve(y_test, decision_scores)
plt.plot(fprs, tprs)
plt.show()

3.3分析
ROC曲线距离左上角越近，证明分类器效果越好。如果一条算法1的ROC曲线完全包含算法2，则可以断定性能算法1>算法2。这很好理解，此时任做一条横线（纵线），任意相同TPR（FPR）时，算法1的FPR更低（TPR更高），故显然更优。
在这里插入图片描述我们可以看出,左上角的点(TPR=1,FPR=0)，为完美分类，也就是这个医生医术高明，诊断全对。TPR>FPR，说明医生的判断大体是正确的。中线上的点TPR=FPR，也就是医生全都是蒙的，蒙对一半，蒙错一半；下半平面的点TPR<FPR，这个医生说你有病，那么你很可能没有病，医生的话我们要反着听，为真庸医。

很多时候两个分类器的ROC曲线交叉，无法判断哪个分类器性能更好，这时可以计算曲线下的面积AUC，作为性能度量。

4.AUC
一般在ROC曲线中，我们关注是曲线下面的面积，称为AUC（Area Under Curve）。这个AUC是横轴范围（0,1 ），纵轴是（0,1）所以总面积是小于1的。

ROC和AUC的主要应用：比较两个模型哪个好？主要通过AUC能够直观看出来。

ROC曲线下方由梯形组成，矩形可以看成特征的梯形。因此，AUC的面积可以这样算：（上底+下底）* 高 / 2，曲线下面的面积可以由多个梯形面积叠加得到。AUC越大，分类器分类效果越好。

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样，模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。
可以在sklearn中求出AUC值

from sklearn.metrics import roc_auc_score
roc_auc_score(y_test, decision_scores)
# 输出：
# 0.9830452674897119

猫小咪编程

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录