从零手搓大模型之路(四、TinyEval的构建)

写在前面

这是该系列最后一堂课,主要是对比评测模型的好坏程度,给模型进行打分。

对于大模型来说,输出结果纷杂,也会导致评测的指标也有众多选择。本文也主要学习下相关的评测指标,先不将评测作为现阶段学习的重点。等自认为大模型的学习有一定成果后再进一步研究。

依旧是先放上课程链接:

手搓大模型

 

一、相关评测指标

说到评测指标,最先想到的就是AUC、F1、威尔科克森符号秩检验,也是之前写小论文以及毕设时用到的,借此机会又了解到一些其他指标,就一并放上来整理下。

1、AUC

说到AUC,就不得不提到混淆矩阵(一切罪恶的起源)

标记为正 标记为负
实际为正 真正例(TP) 假反例(FN)
实际为负 假正例(FP) 真负例(TN)

TPR(真正例率)= TP /(TP+FN),也叫召回率、查全率(Recall)

FPR(假正例率)= FP/(FP+TN)

ACC(准确率) = (TP + TN)/(TP + FN + FP + TN)

Precision(精准率)=  TP/(TP + FP)

然后,以FPR为横坐标,TPR为纵坐标,就可以绘制ROC曲线(接受者操作特征曲线)。

那么如何根据FPR和TPR绘制曲线呢?

对于二分类问题,假设有100个评测目标,借助模型,可以得到这100个目标的评测分数。依次以这100个评测分数作为阈值进行二分类,那么就有了100次的分类判断结果(也就是有100对FPR和TPR的计算结果,即100个点),将这100个点进行绘制,就得到ROC。

图片来自西瓜书

AUCROC曲线下的面积。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值