好文与笔记分享:深入探讨大模型评估方法(附开源代码),欢迎一起聊聊

引言:巧了,这周我刚刚把之前HLE选择题上加上技巧的方式工程化开源了,这两天就看到Sebastian Raschka, PhD 关于大语言模型评估方法探讨。正好这两天对于非选择题场景下如何对大模型进行评估方式比较纠结,这篇文章拿来读一读真的是巧了。
如何在不同模型之间做出选择,以及如何理解现有的评估结果(当然还包括在微调或自主开发时如何衡量进展)。
原文 https://magazine.sebastianraschka.com/p/llm-evaluation-4-approaches

综述

实践中评估已训练大语言模型主要有四种常见方法:多项选择题测试、验证器评估、排行榜比较和大语言模型裁判,如下图1所示。研究论文、营销资料、技术报告和模型卡片(专指大语言模型技术报告)通常会包含其中两类或更多方法的评估结果。
在这里插入图片描述
此外,上述四类评估方法可归为两大范畴:基于基准的评估与基于判定的评估,如上图所示。

方法一:基准测试,选择题

历来最广泛使用的评估方法之一是基于选择题的基准测试,例如MMLU(大规模多任务语言理解测试,https://huggingface.co/datasets/cais/mmlu)。为说明该方法,图2展示了MMLU数据集中的一道代表性题目。
在这里插入图片描述
图仅展示了MMLU数据集中的一道示例题目。完整的MMLU数据集涵盖57个学科领域(从高中数学到生物学),包含约1.6万道选择题。模型性能通过准确率(即答对题目所占比例)来衡量,例如在1.6万道题中答对1.4万道,准确率即为87.5%。或者我们可以去看HLE的选择题题库,采用不同的数据集合来对大模型进行检测。这类选择题基准测试(如MMLU)以直观可量化的方式检验大语言模型的知识回忆能力,其形式类似于标准化考试、学校测验或理论驾驶资格考试。
请注意,此图展示的是简化版选择题评估流程,即直接对比模型预测的答案选项与正确答案。此外还存在两种基于对数概率评分的常用方法。模型提示词中会提供备选答案列表,并以"答案:"作为结尾引导模型生成正确选项。
虽然并非必需,但有时在输入中附带附带额外问题及正确答案会有所帮助,这样模型就能理解解题的预期方式(例如提供5个示例的情况被称为5样本MMLU测试)。不过对于当前一代大语言模型而言,即使基础版本已具备较强能力,这种示例提示已非必要。
考虑到大模型生成的结果的方式是“预测”下一个token,它可能预测正确,也会预测错误。
在这里插入图片描述
参考Sebastian Raschka, PhD在文章中的测试结果,如果在假设所有选项等概率的前提下,随机猜测者(以均匀概率选择A、B、C或D)的预期正确率为25%。由此可见,无论是基础模型还是推理模型,其表现均未达到理想水平。
亦或我们之前对DeepSeek v3在HLE上的测试结果,也就

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值