机器学习拟合效果评价_机器学习效果评价标准

本文探讨了机器学习中分类问题的评价标准,尤其是对于二元分类器,重点介绍了混淆矩阵、精确率和召回率。指出仅依赖分类准确度评估分类算法的不足,尤其是在极度偏斜数据集上的问题。提出了使用混淆矩阵进行更深入的分析,以精准率和召回率作为衡量分类算法好坏的重要指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

897557d99c4993c52cdac9c44dd0b029.png

混淆矩阵、精确率


以上两种衡量指标是针对二元分类器
准确率(), 精确率(Precision), 召回率(Recall)和
一、分类精准度的缺陷
 1)评论算法的好坏

  • 回归问题:MSE、MAE、RMSE、R^2(以为最好的标准);
  • 分类问题:分类准确度(score() 函数);
  • 分类算法的评价要比回归算法的评价标准复杂的多;
  • 评论分类算法好坏的指标,有多种,具体选择评价指标时要根据数据和应用场景而定;

 2)分类准确度类评价分类算法的好坏存在问题

  • 实例说明
  • 任务:搭建一个癌症预测系统,输入一个人体检的信息指标,可以判断此人是否有癌症;
  • 思路:收集大量的数据,训练机器学习算法模型,进而完成癌症预测系统;
  • 疑问:如果该系统的预测准确度为 99.9% ,该系统是好?是坏?
  • 情景1:如果该种癌症在人群中产生的概率只有 0.1%,那么即使随便一个系统,预测所有人都是健康,该系统也可达到 99.9% 的准确率;也就是说,即使该系统什么都不做,也可以达到 99.9% 的准确率;
  • 情景2:如果该种癌症在人群中产生的概率只有 0.01%,此时即使系统什么都不做,其预测准确率也能达到 99.99%,则该机器学习算法的模型是失败的;


 3)分析

  • 原因:对于极度偏斜(Skewed Data)的数据,只使用分类准确度是远远不够的;
  • 极度偏斜的数据不同类型的样本的数量的差距特别大;如该种癌症患者和健康人,比例为 1:1000 或者 1:10000;
  • 面对这种极度偏斜的数据,分类准确度非常的高,其实算法是不够好的,甚至有些情况下非常烂的算法也能得到非常高的准确度;


 4)方案

  • 方案:使用混淆矩阵做进一步的分析;


二、混淆矩阵(Confusion Matrix)

  • 混淆矩阵:分类任务中的重要工具,大多应用于二分类问题,通过混淆矩阵可以得到更好的衡量分类算法好坏的指标;
  • 精准率和召回率:衡量分类算法坏话的指标,就是通过混淆矩阵所得;

 1)二分类问题中混淆矩阵

  • 为 2 X 2 的矩阵,只有 4 个数;
  • 混淆矩阵的创建

bf8f074d3f3aedd5ee063bf49cd6ef55.png
  1. 矩阵的最上一行代表预测值,最左列为真实值;
  2. 0 - Negative、1 - Positive;
  3. TN、FP、FN、TP:表示预测结果的样本数量
  4. TN(True Negative):实际值为 Negative,预测值为 Negative,预测 negative 正确;
  5. FP(False Positive):实际值为 Negative,预测值为 Positive,预测 Positive 错误;
  6. FN(False Negative):实际值为 Positive,预测值为 Negative,预测 Negative 错误;
  7. TP(True Positive):实际值为 Positive,预测值为 Positive,预测 Positive 正确;


 2)实例解释

  • 还是 癌症患者预测:训练样本 10000 人,下面是预测结果的混淆矩阵;

b7ee91a4056cf373cbaaafbdf31e1798.png
  1. 9978:9978 个人本身没有换癌症,同时算法预测他们也没有还癌症;
  2. 12:12个人本身没有患癌症,但算法预测他们患有癌症;
  3. 2:2个人本身患有癌症,但算法预测他们没有患癌症;
  4. 8:8个人本身患有癌症,同时算法预测他们也患有癌症;
    三、精准率和召回率
  • 精准率和召回率:衡量分类算法坏话的指标,就是通过混淆矩阵所得;
  • 对于有偏的数据的分类中,通常将 1 作为关注的事件,精准率就是指预测所关注的事件的准确率;
  • 所关注的事件:人群中的癌症患者;

80f1d6551cceab834c516288ce8cc187.png

 1)精准率(precision)判断出来是‘目标’的样本中,有多少是真正判断正确的

  • 精准率:预测所关注的事件的结果中(共预测了 20 次),预测正确的概率(8 次正确,12 次错误);

a7bc5e74be041f8896921f2b64581b41.png
  • 精准率 = TP / (TP + FP) = 8 / (8 + 12) = 40%
  1. 含义:每做 100 次患病的预测,平均会有 40 次是正确的;


 2)召回率(recall) 所有真正的‘目标’样本中,有多少被判断出来了

  • 召回率:对所有所关注的类型(癌症患者,共 10 个),将其预测出的概率(预测出 8 个);

39b3f92fd7d12ffa0d9cb237fac91345.png
  • 召回率 = TP / (TP + FN) = 8 / (8 + 2) = 80%
  1. 解释:每当有 100 个癌症患者,通过该预测系统,能够成功的找出 80 个癌症患者;


3、准确率(accuracy) 所有的判断中(无论正负样本),其中判断正确的比率
准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下:

c42b7b24e1148be8122e466f8def6793.png


对于二元分类,也可以根据正类别和负类别按如下方式计算准确率:

ca51f80be3c6e124f47bf5caf2d3bb1e.png


其中,TP = 真正例,TN = 真负例,FP = 假正例,FN = 假负例。
F1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。

ac08307169d7cab3d17220eb0ffeefad.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值