从零手搓大模型之路（四、TinyEval的构建）

最新推荐文章于 2024-11-10 10:22:49 发布

晓光尘梦

最新推荐文章于 2024-11-10 10:22:49 发布

阅读量1.9k

点赞数 29

分类专栏：大模型学习文章标签：语言模型

本文链接：https://blog.csdn.net/qq_37021523/article/details/139240248

版权

这是该系列最后一堂课，主要是对比评测模型的好坏程度，给模型进行打分。

对于大模型来说，输出结果纷杂，也会导致评测的指标也有众多选择。本文也主要学习下相关的评测指标，先不将评测作为现阶段学习的重点。等自认为大模型的学习有一定成果后再进一步研究。

依旧是先放上课程链接：

说到评测指标，最先想到的就是AUC、F1、威尔科克森符号秩检验，也是之前写小论文以及毕设时用到的，借此机会又了解到一些其他指标，就一并放上来整理下。

说到AUC，就不得不提到混淆矩阵~~（一切罪恶的起源）~~。

	标记为正	标记为负
实际为正	真正例（TP）	假反例（FN）
实际为负	假正例（FP）	真负例（TN）
TPR（真正例率）= TP /（TP+FN），也叫召回率、查全率（Recall） FPR（假正例率）= FP/（FP+TN） ACC（准确率） = （TP + TN）/（TP + FN + FP + TN） Precision（精准率）= TP/（TP + FP）