【Pytorch-从一团乱麻到入门】:4、模型效果评估指标:ROC-AUC、PR-AUC及可能遇到的问题(1)

1.ROC-AUC 和PR-AUC定义

AUC: 随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。
ROC-AUC 指的是 ROC 曲线下的面积,通过在【0,1】范围内设置阈值来计算对应的TPR和FPR,最终将所有的点连起来构成ROC曲线。
PR-AUC 的构造和上述过程基本一致,只是需要再计算出 Precision 和 Recall ,以precision(精准率)和recall(召回率)这两个为变量而做出的曲线,其中recall为横坐标,precision为纵坐标。设定一系列阈值,计算每个阈值对应的recall和precision,即可计算出PR曲线各个点。

2.ROC-AUC 和PR-AUC的使用场景

所以当类别相对来说较均衡时,可以使用 ROC-AUC,当类别极其不均衡时使用 PR-AUC 较好。
从各自两个指标来看,TPR 和 FPR 分别聚焦于模型对正样本和负样本的分类能力,而 Precision 和 Recall 都是针对正样本的指标,没有考虑负样本。所以当我们希望模型在正负样本上都能表现较好时使用 ROC-AUC 衡量,如果我们只关注模型对正样本的分辨能力使用 PR-AUC 更好

3.程序代码如何实现RP-AUC、ROC-AUC的计算, 使用sklearn库。

####可以使用sklearn.metrics.precision_recall_curve 来计算PR曲线
from sklearn.metrics import precision_recall_curve,auc,accuracy_score
import numpy as np
from sklearn import metrics

label=[1,0,0,0,1,0]
prob=[1,0,0,1,0,0]

precision, recall, thresholds = precision_recall_curve(ture_lab,pre_lab)

###使用AUC函数计算出PR-auc值
auc_precision_recall = auc(recall, precision)

####'''计算ROC-AUC值'''#####
roc_auc=metrics.roc_auc_score(label,prob)

4.遇到的问题

1)ROC-AUC 计算时,如果遇到“ValueError: Only one class present in y_true. ROC AUC score is not defined in that case.”问题:
可能是因为label只有一种类型导致的,数据过分不平衡,针对这种情况:
如果是用于模型训练中的测试集,要在脚本中事先做好label只有一类情况的定义
如果是用于模型验证中的验证集,也是要实现做好实际类别是否只有一类的判断,然后做相应的计算。
报错示例如下:
label=[1,1,1,1,1,1]
prob=[0,0,0,0,0,0]

报错如下:

解决此问题的方法:

避免数据不平衡情况,或者在代码中加入判断行,可以使用try :

import numpy as np
from sklearn.metrics import roc_auc_score
label=[1,1,1,1,1,1]
prob=[0,0,0,0,0,0]
try:
roc_auc=roc_auc_score(label, prob)
except ValueError:
pass ##或者其它定义,例如roc_auc=0
2)计算PR-ROC时,隐藏bug,如果label中只有一类的数据,计算PR-RIC时并不报错,但是会计算错误
示例如下:
label=[1,1,1,1,1,1]
prob=[0,0,0,0,0,0]
'''计算PR曲线的AUC值'''
precision, recall, _thresholds = metrics.precision_recall_curve(label, prob)
print("recall","precison:",recall,precision)
print("PR-AUC:",metrics.auc(recall, precision))
print("label:",label)
print("prob",prob)

错误结果示例:

当真实类别只有“1”,预测类别全是“0”,出现PR-AUC计算为1的情况,实际是不对的结果,但是并不会报错。

 解决此问题的方法:

避免数据不平衡情况,或者在代码中加入判断行,进行极端条件警示和定义即可。

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是给出GPU上训练CIFAR10并计算指标PyTorch代码: ```python import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_curve, auc # 定义网络模型 class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(3, 32, 5) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(32, 64, 5) self.fc1 = nn.Linear(64 * 5 * 5, 256) self.fc2 = nn.Linear(256, 10) def forward(self, x): x = self.pool(nn.functional.relu(self.conv1(x))) x = self.pool(nn.functional.relu(self.conv2(x))) x = x.view(-1, 64 * 5 * 5) x = nn.functional.relu(self.fc1(x)) x = self.fc2(x) return x # 加载数据集并进行数据增强 transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) transform_test = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2) testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test) testloader = torch.utils.data.DataLoader(testset, batch_size=128, shuffle=False, num_workers=2) # 定义损失函数和优化器 net = Net() criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) # 将模型移动到GPU上进行训练 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") net.to(device) # 训练模型 for epoch in range(20): running_loss = 0.0 for i, data in enumerate(trainloader, 0): inputs, labels = data inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 100 == 99: print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / 100)) running_loss = 0.0 # 在测试集上进行预测并计算各项指标 y_true = [] y_pred = [] y_score = [] net.eval() with torch.no_grad(): for data in testloader: images, labels = data images, labels = images.to(device), labels.to(device) outputs = net(images) _, predicted = torch.max(outputs.data, 1) y_true += labels.cpu().numpy().tolist() y_pred += predicted.cpu().numpy().tolist() y_score += nn.functional.softmax(outputs, dim=1).cpu().numpy().tolist() acc = accuracy_score(y_true, y_pred) precision = precision_score(y_true, y_pred, average='macro') recall = recall_score(y_true, y_pred, average='macro') f1 = f1_score(y_true, y_pred, average='macro') fpr = {} tpr = {} roc_auc = {} for i in range(10): fpr[i], tpr[i], _ = roc_curve([1 if j == i else 0 for j in y_true], [score[i] for score in y_score]) roc_auc[i] = auc(fpr[i], tpr[i]) print("Accuracy:", acc) print("Precision:", precision) print("Recall:", recall) print("F1 score:", f1) for i in range(10): print("ROC AUC of class", i, ":", roc_auc[i]) ``` 这段代码会输出ACC PRECISION F1 RECALL AUC以及每一类ROC曲线的值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值