因为最近公司在招算法工程师,面了几轮后发现面对"如何评估大模型性能"这个问题,很多同学往往只能说出几个指标名称,但说不清楚具体计算方法和适用场景。今天我就结合实际项目经验,系统讲解几个核心评估指标。
从训练到部署的评估链条
大模型的评估贯穿了从研发到部署的全生命周期:
训练阶段:使用交叉熵等损失函数指导模型优化方向
生成评估:通过BLEU、ROUGE等指标量化生成内容质量
能力测试:利用GLUE、MMLU等标准化基准评估多维度能力
实战对比:在竞技场上与其他模型直接PK,检验实际效果
交叉熵与困惑度
熵最初源自物理学,用于描述系统无序程度。在信息论中,熵衡量信息的不确定性:
H ( X ) = − ∑ x P ( x ) l o g b P ( x ) H(X) = -\sum_{x} P(x)log_b P(x) H(X)=−∑xP(x)logbP(x)
交叉熵是评估预测分布与真实分布差异的指标,也是大模型训练中最常用的损失函数:
H ( p , q ) = − ∑ i p ( i ) log q ( i ) H(p, q) = -\sum_{i} p(i) \log q(i) H(p,q)=−∑ip(i)logq(i)
困惑度是评估语言模型的老牌指标,简单说就是预测下一个词有多"困难"。
计算公式:
$PP(W) = \exp(-\frac{1}{N}\sum_{i=1}^{N}\log p(w_i|w_1,w_2,...,w_{i-1}))$
在实际项目中,我们常用它监控预训练过程。比如前段时间我们训练一个垂直领域模型,困惑度从最初的20多降到7左右就基本收敛了。但要注意,困惑度低不代表生成质量高,它只反映模型对训练分布的拟合程度。
困惑度可以形象理解为:如果困惑度是81,就像在81个球中找出1个红球,其余都是黑球。模型能力越强,能排除的黑球越多,困惑度就越低,理想情况下可以达到1。
我见过不少同学踩过的坑:直接比较不同词表大小模型的困惑度,这是不合理的。词表越大,模型选择空间越大,困惑度自然会高一些。
BLEU与ROUGE:生成质量的试金石
对于生成式任务,我们需要评估模型生成内容与参考内容的相似度。传统的精确率(Precision)和召回率(Recall)不足以衡量文本生成质量,因此衍生出了BLEU和ROUGE等专门指标。
BLEU最早是为机器翻译设计的,核心思想很简单:看生成文本中有多少n-gram短语出现在参考答案中。
举个实际例子,假设参考答案是"我喜欢在周末去公园散步",模型生成了"我喜欢在周末出去玩"。BLEU-1(单词匹配)得分会比较高,而BLEU-2(二元词组)就会低很多。
BLEU对短文本比较友好,为了解决这个偏向,它引入了长度惩罚因子(BP):
-
如果生成文本太短:BP = exp(1-r/c)
-
如果生成文本长度合适:BP = 1
ROUGE是做摘要评估时用得最多的指标,和BLEU相比最大的不同是同时考虑了精确率和召回率。
以ROUGE-1为例,假设模型摘要是"今天天气很好",参考摘要是"今天天气晴朗":
-
精确率:3/4(模型输出4个词,有3个在参考中)
-
召回率:3/4(参考有4个词,3个被模型覆盖)
-
F1:(2×3/4×3/4)/(3/4+3/4) = 0.75
ROUGE有多个变体,包括ROUGE-N(基于n-gram)和ROUGE-L(基于最长公共子序列)。
在实际项目中,ROUGE-L(最长公共子序列)通常比ROUGE-1/2更符合人类判断,因为它允许词语间有间隔匹配。
有个小技巧:评估中文时,字级别的ROUGE比词级别的更稳定,因为避免了分词不一致的问题。
METEOR指标:同义词的补充
METEOR是对前两个指标的增强版,最大亮点是引入了同义词匹配。
举个例子,如果参考文本是"汽车速度很快",模型生成"轿车行驶迅速",传统指标会判为完全不匹配,而METEOR会认为"汽车/轿车"、"快/迅速"是相似的。
METEOR计算过程分三步:
建立词匹配(含同义词)
计算精确率和召回率的加权调和平均
应用惩罚项调整连续匹配程度
在我们评估翻译质量时,METEOR通常比BLEU更接近人类判断,但计算复杂度也高很多。
Benchmarks:标准化能力检测
随着大模型能力提升,我们需要全面评估其在不同任务上的表现。基准测试(Benchmarks)提供了标准化的评估框架。
主流基准测试
-
GLUE/SuperGLUE
:自然语言理解测试集合,包含多个分类、匹配和推理任务
-
MMLU
:涵盖57个学科的多任务测试,评估模型的多领域知识
-
CMMLU
:中文多学科测试,包含67个学科,专为中文大模型设计
-
GSM8K
:小学数学应用题集合,测试基础数学推理能力
-
HumanEval/MBPP
:编程能力评估,测试代码生成和问题解决能力
这些基准测试从不同角度评估模型能力,形成较为全面的能力图谱。但要注意,基准测试也存在"适应性偏差"问题——随着模型不断针对这些测试优化,可能导致测试分数提高但实际应用能力并未同步提升。
国内也有中文通用大模型综合性基准SuperCLUE,评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。
Arena:真实对抗的竞技场
最能检验模型实力的,还是真实场景下的直接对比。竞技场(Arena)评估方法让不同模型在相同任务上同台竞技,由人类评判胜负。
竞技场评估的特点
直接对比:不同模型同时回答相同问题,消除问题难度差异
匿名评测:避免品牌偏见影响判断
众包打分:汇集多个人类评判意见,减少个体偏好影响
实时更新:排行榜动态变化,反映模型迭代进展
目前最知名的竞技场是LMSys Chatbot Arena,其排行榜被视为大模型性能的风向标。
竞技场评估的优势在于直接反映用户感知的模型能力,但也存在评判标准不一、样本覆盖不全等局限性。
实际应用建议
在实际工作中,我通常会用这几个原则选择评估指标:
项目初期用自动指标:迭代速度快时,BLEU/ROUGE这类自动指标让你快速验证改进方向。
规模化测试用分层评估:
-
第一层:自动指标筛选明显的差模型
-
第二层:BERTScore评估语义匹配度
-
第三层:抽样人工评估或LLM-as-Judge
不同任务选不同指标:
-
翻译:优先METEOR > BLEU
-
摘要:优先ROUGE-L > ROUGE-1/2
-
问答:优先BERTScore或特定领域指标
-
对话:几乎必须人工评估或LLM-as-Judge
客观看待指标局限性:记住所有自动指标都有盲点,最终还是要回到用户体验上。
面试中回答这类问题,不要只是罗列公式,而是要展示你对指标的理解和实践经验。需要根据应用场景选择合适的评估方法组合:
训练阶段:关注困惑度、交叉熵等内部指标
开发测试:使用BLEU/ROUGE快速迭代
发布前:在标准基准上全面评测
市场验证:通过竞技场或A/B测试直接对比
最终,大模型的价值不在于某个单一指标的高低,而在于它能否有效解决实际问题、提升用户体验。一个优秀的模型评估体系,应当既关注客观数据,也不忽视主观体验。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。