自然语言处理 第二期

  1. 召回率、准确率、ROC曲线、AUC、PR曲线
    机器学习中对于分类的评估指标有准确率、召回率、F值、ROC曲线、AUC和PR曲线等。
    1.1 介绍指标之前,先引入混淆矩阵
    在这里插入图片描述True Postive: 将正样本预测为正类的个数
    True Negative: 将负样本预测为负类的个数
    False Postive: 将负样本预测为正类的个数
    False Negative: 将正样本预测为负类的个数
    1.2 准确率
    评价分类器性能一般的指标为分类准确率,准确率衡量的是正确分类的样本数占总样本数的比例,公式为:
      A c c = T P + T N T P + T N + F P + F N \ Acc = \frac{TP+TN}{TP+TN+FP+FN}  Acc=TP+TN+FP+FNTP+TN
    1.3 召回率和精确率
    召回率和精确率主要用于评估二分类问题,召回率是指有多少个正样本被分到了正类,其公式为:
      R = T P T P + F N \ R = \frac{TP}{TP+FN}  R=TP+FNTP
    精确率是指分到的正样本中有多少个是正确的,其公式为:
      P = T P T P + F P \ P = \frac{TP}{TP+FP}  P=TP+FPTP
    F1值是精确率和召回率的调和均值
      F 1 = 2 T P 2 T P + F P + F N \ F_1 = \frac{2TP}{2TP+FP+FN}  F1=2TP+FP+FN2TP
    4.4 ROC曲线和AUC
    ROC曲线是接收者操作特征,ROC曲线上的每个点反映了对同一信号刺激的感受性。
    在这里插入图片描述
    横轴FPR:在所有实际为反例的样本中,被错误地判断为正例的比例。
    纵轴:在所有实际为正例的样本中,被正确地判断为正例的比例,即召回率。
    ROC曲线约接近左上角,效果越好。AUC是指ROC曲线下的面积,AUC可以作为数值直观的评价分类器的好坏,AUC值越大,模型越好。

AUC的理解:
AUC为TPR与FPR之比,当实际的正负样本数差不多的时候,可以看作TP和FP的比,当AUC在x=y的左上方时候,说明该点被判断为正确的概率比较大。

ROC曲线的优缺点:
优点是不会随着类别分布的改变而改变,TPR聚焦于正例,FPR聚焦于负例,使得ROC方法为一个比较均衡的评估方法。即正例或负例某一方数量上出现了较大的变化,也不会影响另一方的值,具有比较强的鲁棒性。但是,在类别不平衡的情况下,负例增加很多的时候,曲线却没有发生变化,这会使得ROC曲线呈现一个过分乐观的估计。当我们更多地关注正例的预测准确性的时候,这个就会造成错误判断。ROC曲线的横轴采用FPR,当负例N的数量远超正例P时,FP的大幅增长只能换来FPR的微小改变。结果是虽然大量负例被错判成正例,在ROC曲线上却无法直观地看出来。

参考链接:https://www.imooc.com/article/48072
https://blog.csdn.net/chen_yiwei/article/details/88086086

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值