AI理论知识学习(2)-模型评估指标

本文介绍了AI模型评估,特别是分类模型的评估方法,包括混淆矩阵、准确率、精准率、召回率和F1-Score。此外,还探讨了计算机视觉中的目标检测场景,关注的指标如IOU,以及NLP领域的评估指标,如字符识别准确率和召回率。
摘要由CSDN通过智能技术生成

目录

前言

一、分类模型是什么?

二、分类模型的评估方法

2.1.分类模型评估方法常用哪些?

 2.2.混淆矩阵

 

2.3.二级指标

正确率(准确率、Accuracy):就是总样本中预测对了多少

精准率(查准率、Precision):预测为正的样本中中实际为正的有多少

召回率(查全率、Recall):实际为正样本中有多少被预测为正

F1-Score(可以理解为是召回和精准的调和平均,在同时关注这两种指标的场景下作为评估维度)

三、其他模型测试效果

3.1计算机视觉下的模型效果测试

下边先解释一些目标检测场景是什么?

目标检测场景关注的指标?

3.2NLP的评估指标

总结


前言

模型评测总基调:只有好不好,没有错不错

在这个领域里模型其实没有bug一说, 我们通过会说一个模型的效果好或者不好, 不会说这个模型有bug -- 因为世界上没有100%满足所有场景的模型。

评测的目的:使用一些评测方法,来把 “作弊的” 模型给揪出来—也就是对模型进行评估,不仅需要有效可行的方法,还需要有衡量模型的评价标准,这就是性能度量

本章学习:分类模型为主的评估指标

一、分类模型是什么?

      分类模型就是需要模型帮我们判断这条数据属于哪些分类,比如是信用卡欺诈行为或者不是,这就是二分类【是否为】

    也可以是判断目标是猫,还是狗,还是老鼠或者是人, 这种就是多分类。【是哪类】

二、分类模型的评估方法

2.1.分类模型评估方法常用哪些?

混淆矩阵:是一个矩阵,它显示了模型对于每个类别的预测结果与实际结果的对比情况。

二级指标:正确率(Accuracy),召回率(Recall)、精准率(precision)、 F1-Score ( F1 score,简单理解为 是召回和精准的平均值 )

 2.2.混淆矩阵

基于分类模型的种类同样可以分为:二分类的混淆矩阵和多分类的混淆矩阵

以分类模型中最简单的二分类为例,简单来说,用模型预测样本数据的结果该是0还是1的问题

或者说是判断positive还是negative的问题。

我们通过样本的采集,能够直接知道真实情况下,哪些数据结果是positive,哪些结果是negative——这是真实值。同时,我们通过用样本数据跑出分类型模型的结果,也可以知道模型认为这些数据哪些是positive,哪些是negative——这是预测值

因此,我们就能得到这样四个基础指标,我称他们是一级指标:

真实值是positive,模型认为是positive的数量(True Positive=TP)

真实值是positive,模型认为是negative的数量(False Negative=FN)

真实值是negative,模型认为是positive的数量(False Positive=FP)

真实值是negative,模型认为是negative的数量(True Negative=TN)

记忆方法:

以TP为例:T代表True,表示模型预测的值和实际值一致, Positive为模型的预测值为Positive,总结为真阳

这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,我们称它为混淆矩阵(Confusion Matrix):

混淆矩阵 真实值
Positive Negative
预测值 Positive TP FP
Negative FN TN
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值