【机器学习】模型训练结果衡量指标准确率acc、精确率pre、召回率recall

LLM教程

已于 2024-05-05 11:05:07 修改

阅读量3.9k

点赞数 45

文章标签：机器学习人工智能 conda pytorch pip opencv 深度学习

于 2024-01-14 09:00:00 首次发布

本文链接：https://blog.csdn.net/AAI666666/article/details/135551589

版权

本文详细解释了实际值、预测值以及真、假、阳性和阴性在机器学习中的含义。介绍了准确率、精确率、召回率和F1分数这些分类指标的概念和计算方法，并结合大模型AI的学习路径，展示了从基础应用到模型训练和商业落地的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

名称解释

1、真实值actual value和预测值predicted value

这两者就是字面的意思，actual value是指真实记录的已发生的测量结果值，而predicted value是指对未发生的预测值。这里的值既可以是数值型，也可以是类别型。

2、真True、假False

这两个表示的是真实值与预测值之间是否吻合，true表示的是预测值与真实值一致，而false表示的是预测值与真实值不一致。

3、阳性Positive（正）、阴性Negative（负）

首先这里讨论的positive和negative不代表性别的取向，同时正和负也不代表正确或者错误。positive指条件或者事物存在，而negative指条件或者事物不存在。例如异常检测领域阳性positive代表存在异常，阴性negative代表不存在异常；如健康领域阳性positive代表检测存在病毒或者疾病，阴性negative代表检测结果是健康的。再如电子商务领域阳性positive代表点击或者成交，阴性negative代表未点击或者未成交。

二、分类指标的定义和说明

如上图，左上角是一个混合矩阵，首先将所有样本分为正样本P（标记为positive）和负样本N（标记为negative），正样本经过模型预测的结果依然为正的样本记为True Positive（TP），正样本被预测为负的样本称为False Positive（FP），同理，负样本被预测为负的样本被称为True negative（TN），负样本被预测为正的样本被称为False negative（FN），所以经过模型预测后有P = TP+FN，N = FP+TN；、

1、准（正）确率accuracy

反映分类器或者模型对整体样本判断正确的能力，即能将阳性（正）样本positive判定为positive和阴性（负）样本negative判定为negative的正确分类能力。值越大，性能performance越好

简单理解为，所有的样本中预测正确的比例。

这里注意，在负样本占绝对多数的场景中，不能单纯追求准确率，因为将所有样本都判定为负样本，这种情况下准确率也是非常高的。

使用sklearn计算准确率示例：

import numpy as np
from sklearn.metrics import accuracy_score

y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
print(accuracy_score(y_true, y_pred))  # 0.5
print(accuracy_score(y_true, y_pred, normalize=False))  # 2

# 在具有二元标签指示符的多标签分类案例中
print(accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2))))  # 0.5

accuracy_score函数接口描述：

在多标签分类中，此函数计算子集精度：为样本预测的标签集必须完全匹配y_true（实际标签）中相应的标签集。

参数

y_true : 一维数组，或标签指示符 / 稀疏矩阵，实际（正确的）标签.
y_pred : 一维数组，或标签指示符 / 稀疏矩阵，分类器返回的预测标签.
normalize : 布尔值, 可选的(默认为True). 如果为False，返回分类正确的样本数量，否则，返回正确分类的得分.
sample_weight : 形状为[样本数量]的数组，可选. 样本权重.

返回值

score : 浮点型
如果normalize为True，返回正确分类的得分（浮点型），否则返回分类正确的样本数量（整型）.
当normalize为True时，最好的表现是score为1，当normalize为False时，最好的表现是score未样本数量.

2、精确率（Precision，查准率）

在预测为正类的样本中，实际上属于正类的样本所占的比例。在信息检索领域，精确率又被称为查准率。

注意： 精确率和准确率不是一个东西，请大家注意不要搞混了！

$Precision=\frac{TP}{TP+FP}$

使用sklearn计算精确率：

from sklearn.metrics import precision_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(precision_score(y_true, y_pred, average='macro'))  	# 0.2222222222222222
print(precision_score(y_true, y_pred, average='micro'))  	# 0.3333333333333333
print(precision_score(y_true, y_pred, average='weighted'))  # 0.2222222222222222
print(precision_score(y_true, y_pred, average=None))  		# [0.66666667 0.         0.        ]

函数描述：

精确率是 tp / (tp + fp)的比例，其中tp是真正性的数量，fp是假正性的数量. 精确率直观地可以说是分类器不将负样本标记为正样本的能力。精确率最好的值是1，最差的值是0。

参数：

y_true : 一维数组，或标签指示符 / 稀疏矩阵，实际（正确的）标签.
y_pred : 一维数组，或标签指示符 / 稀疏矩阵，分类器返回的预测标签.
labels : 列表，可选值. 当average != binary时被包含的标签集合，如果average是None的话还包含它们的顺序. 在数据中存在的标签可以被排除，比如计算一个忽略多数负类的多类平均值时，数据中没有出现的标签会导致宏平均值（marco average）含有0个组件. 对于多标签的目标，标签是列索引. 默认情况下，y_true和y_pred中的所有标签按照排序后的顺序使用.
pos_label : 字符串或整型，默认为1. 如果average = binary并且数据是二进制时需要被报告的类. 若果数据是多类的或者多标签的，这将被忽略；设置labels=[pos_label]和average != binary就只会报告设置的特定标签的分数.
average : 字符串，可选值为[None, ‘binary’ (默认), ‘micro’, ‘macro’, ‘samples’, ‘weighted’]. 多类或者多标签目标需要这个参数. 如果为None，每个类别的分数将会返回. 否则，它决定了数据的平均值类型.
- binary: 仅报告由pos_label指定的类的结果. 这仅适用于目标（y_{true, pred}）是二进制的情况.
- micro: 通过计算总的真正性、假负性和假正性来全局计算指标.
- macro: 为每个标签计算指标，找到它们未加权的均值. 它不考虑标签数量不平衡的情况.
- weighted: 为每个标签计算指标，并通过各类占比找到它们的加权均值（每个标签的正例数）.它解决了’macro’的标签不平衡问题；它可以产生不在精确率和召回率之间的F-score.
- samples: 为每个实例计算指标，找到它们的均值（只在多标签分类的时候有意义，并且和函数accuracy_score不同）.
- sample_weight : 形状为[样本数量]的数组，可选参数. 样本权重.

返回值

precision : 浮点数(如果average不是None) 或浮点数数组, shape =[唯一标签的数量]
二分类中正类的精确率或者在多分类任务中每个类的精确率的加权平均.

关于micro和macro

Macro Average
宏平均是指在计算均值时使每个类别具有相同的权重，最后结果是每个类别的指标的算术平均值。
Micro Average
微平均是指计算多分类指标时赋予所有类别的每个样本相同的权重，将所有样本合在一起计算各个指标。
对比：
- 如果每个类别的样本数量差不多，那么宏平均和微平均没有太大差异
- 如果每个类别的样本数量差异很大，那么注重样本量多的类时使用微平均，注重样本量少的类时使用宏平均
- 如果微平均大大低于宏平均，那么检查样本量多的类来确定指标表现差的原因
- 如果宏平均大大低于微平均，那么检查样本量少的类来确定指标表现差的原因

3、召回率（Recall=TPR）

在所有正类样本中，被正确识别为正类别的比例是多少，通俗讲，识别出来的正类（预测的）占实际正类中的比例。

在信息检索领域，召回率又被查全率。

$Recall=\frac{TP}{TP+FN}$

精确率和召回率可以观察下图理解，他们的分子相同，但分母是不一样的。而且有时候是矛盾的，极端情况下，我们只搜索出了一个结果，且是准确的，那么Precision就是100%，但是Recall就很低；而如果我们把所有结果都返回，那么比如Recall是100%，但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究，可以绘制Precision-Recall曲线来帮助分析。

使用sklearn计算召回率

from sklearn.metrics import recall_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(recall_score(y_true, y_pred, average='macro'))  # 0.3333333333333333
print(recall_score(y_true, y_pred, average='micro'))  # 0.3333333333333333
print(recall_score(y_true, y_pred, average='weighted'))  # 0.3333333333333333
print(recall_score(y_true, y_pred, average=None))  # [1. 0. 0.]

函数参数与precision_score一样

函数说明：

召回率是比率tp / (tp + fn)，其中tp是真正性的数量，fn是假负性的数量. 召回率直观地说是分类器找到所有正样本的能力.
召回率最好的值是1，最差的值是0.

返回值：

recall : 浮点数(如果average不是None) 或者浮点数数组，shape = [唯一标签的数量]
二分类中正类的召回率或者多分类任务中每个类别召回率的加权平均值.

4、F1分数

F1 score是精确率和召回率的调和平均值，计算公式为：

Precision体现了模型对负样本的区分能力，Precision越高，模型对负样本的区分能力越强；Recall体现了模型对正样本的识别能力，Recall越高，模型对正样本的识别能力越强。F1 score是两者的综合，F1 score越高，说明模型越稳健。

使用sklearn计算F1分数：

from sklearn.metrics import f1_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
print(f1_score(y_true, y_pred, average='macro'))  # 0.26666666666666666
print(f1_score(y_true, y_pred, average='micro'))  # 0.3333333333333333
print(f1_score(y_true, y_pred, average='weighted'))  # 0.26666666666666666
print(f1_score(y_true, y_pred, average=None))  # [0.8 0.  0. ]

函数参数同precision_score

函数描述：

F1 score可以解释为精确率和召回率的加权平均值. F1 score的最好值为1，最差值为0. 精确率和召回率对F1 score的相对贡献是相等的. F1 score的计算公式为： F1 = 2 * (precision * recall) / (precision + recall)

返回值：

在多类别或者多标签的情况下，这是权重取决于average参数的对于每个类别的F1 score的加权平均值.
f1_score : 浮点数或者是浮点数数组，shape=[唯一标签的数量]
二分类中的正类的F1 score或者是多分类任务中每个类别F1 score的加权平均.

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述