一、引言
随着大型语言模型(LLMs)的快速发展,对它们进行可靠评估面临两大挑战:客观指标往往无法准确反映人类对自然语言的感知,而全面的人工标注又成本过高。针对这一问题,本文提出了一种基于最大差异竞争(Maximum Discrepancy Competition, MAD)的样本高效人工评估方法。
该方法自动从大规模指令集合中选择一小组的输入指令,以最大化LLM响应之间的语义差异,然后由人类评估者进行三选一强制选择比较,并通过Elo评分系统将结果整合为全局排名。我们在科学知识理解、数学推理、创意写作和代码生成四个核心任务上对八种广泛使用的LLM进行了评估,实验结果表明,该方法能够通过少量MAD选择的指令恢复"黄金标准"模型排名,揭示各LLM的优缺点,并为未来LLM发展提供有价值的见解。
二、方法
设 表示一个收集自各种实用自然语言处理任务的大型未标记(即没有准确答案)的指令池。我们希望比较 个竞争的LLM,表示为 ,其中每个模型 对任意输入 产生输出 。人类评估者在环境 中能够可靠地判断同一输入的两个响应的相对质量。在严格限制人类标注数量的条件下,我们的目标是基于少量精心选择的比较,产生 中LLM的明确全局排名。
1. 最大差异竞争原理
首先考虑比较两个LLM 和 的简单情况。根据最大差异(MAD)竞争原理,我们寻找指令:
其中 表示量化两个响应语义差异的距离度量。对 与 的比较分析可产生三种结果:
-
:大多数人类评估者偏好 ,使其成为明显赢家。所选 成为 的反例,对排名两模型的相对性能具有高度信息价值。
-
:相反, 占优,表明评估者明显偏好 。 作为 的反例,最大程度区分两个模型。
-
:评估者给两个响应相似评分,形成平局。平局分两种:
-
高评分平局:两个响应都获得高评价,表明每个模型能生成多样且令人满意的回答。
-
低评分平局:两个输出都得分较低,表明每个模型以不同方式失败。
-
仅选择响应相似度最低的 个指令可能产生狭窄的失败案例集。为鼓励更广泛探索模型行为,我们添加多样性项:选择第 个指令时,求解:
其中 是先前选择的指令集, 测量 与 任意元素的最大差异, 平衡差异与多样性。
对所有 对模型重复此程序并每对保留 个指令,我们构建MAD响应集:
其大小仅随 增长,与 无关。
2. 通过Elo评分实现全局排名
对于每个选定指令及其配对输出,人类评估者执行三选一强制选择任务,结果记为:
第t次比较的Elo分数更新:
其中η和τ为缩放参数。我们采用bootstrap技术以减轻线性更新方法对比较顺序的敏感性。
纳入新LLM:将新LLM(即)纳入MAD竞争非常简单且成本效益高。无需修改现有采样指令集和MAD响应集。只需采样新的条指令以最大化与现有模型集的差异,收集人类偏好,并使用Elo公式更新全局排名。
三、实验分析
1. 实验设置
指令池构建:构建了跨多场景的大规模指令集,通过:(1) 确定评估场景,(2) 收集基准数据集中的指令种子,(3) 使用指令演化方法生成模拟真实人机交互的指令。评估四个能力层次:科学知识理解、数学推理、创意写作和代码生成。每个场景采样3K指令种子,经10次演化,最终获得每场景30K指令。
用于排名的LLM选择:选择了8个广泛认可的LLM,包括3个专有模型(GPT-3.5-Turbo、GPT-4-Turbo、Gemini-Pro)和5个开源模型(WizardLM-13B、Vicuna-13B、OpenChat-3.5、Qwen-14B-Chat、ChatGLM3-6B)。
相似度度量选择:采用计算嵌入向量余弦相似度的方法,使用OpenAI的text-embedding-ada-002模型。
人类偏好收集:使用三选一强制选择方法(即胜、负、平),参与者选择质量更优的回应。我们为每对比较的LLM选择10个差异最大化指令,总共280次()次比较,由13名STEM背景研究生评估。
2. 主要实验结论
2.1. 总体排名
我们在表1中提供了总体和各场景的排名结果,揭示了几个有趣现象。
科学知识理解方面,专有LLM(GPT-4-Turbo、GPT-3.5-Turbo和Gemini-Pro)因精确全面的科学知识理解通常优于开源LLM。有趣的是,仅有70亿参数的OpenChat-3.5提供细致解释同时包含核心知识,获得多数人类评估者青睐,最终排名高于回应相对简洁的专有模型GPT-3.5-Turbo。其他开源模型如Vicuna-13B虽提供更长回应,但倾向于冗余解释。
数学推理方面,我们的排名结果与GSM8K数据集排行榜高度一致。通过分析MAD competition选出的response对,我们观察到两类差异:1) 不同的推理路径和 2) 相似推理思路中包含不同计算结果。WizardLM-13B表现相对较差,可能因其训练数据来自未针对数学推理优化的指令集。
创意写作方面,MAD竞争选出的大多数指令是无约束、开放式的自由写作提示。人类评估者更倾向于回应更长、细节更丰富的LLM。例如,ChatGLM3-6B平均生成221.2个词,而GPT-4-Turbo平均生成454.8个词。
代码生成与解释方面,人类评估者不仅评估代码正确性,还评估遵循指令能力(如行数限制、指定Python库使用等)。LLM在代码生成任务上比代码解释表现出更大差异。结果与HumanEval等代码基准一致,如GPT-4-Turbo(76.83)、GPT-3.5-Turbo(74.39)和Gemini Pro(59.76)在HumanEval上准确率高,也获得人类评估者最高偏好。
2.2 与现有高效采样框架比较
我们将MAD竞争采样算法与五种基线进行比较:1) DiffUse采样框架,2) Anchor Points方法,3) KL散度,4) 基于交叉熵的采样算法,以及5) 随机采样。结果如表3所示。
由于KL散度和交叉熵依赖于令牌对数概率,它们不适用于某些基于API的模型(如Gemini-Pro)。因此,我们在推理场景中评估了七个兼容所有采样方法的LLM。我们的指令池源自GSM8K数据集,指导人类标注者将推理准确性作为关键评估标准。GSM8K测试集上的模型准确率作为"黄金"排名。
值得注意的是,MAD竞争策略仅使用K=10个选定样本就能近似黄金排名,相比原始测试集的8K样本。而其他基线策略的排名显示不一致性。例如,KL散度将GPT-4-Turbo排在前列之后,而交叉熵将ChatGLM3-6B排在GPT-4-Turbo和GPT-3.5-Turbo之前。
我们还定性分析了四种策略在指令选择上的差异。结果表明,KL散度策略选择的指令几乎都与诗歌相关(10个中有9个),交叉熵策略偏好写论文和故事等任务,随机策略经常引入重叠的任务类型。而MAD竞争策略优先考虑指令多样性,最大限度减少所选指令中重复任务类型的出现,有助于在更广泛的任务中暴露LLM的缺陷。
2.3 与现有排行榜比较
我们将总体排名结果与三种现有LLM排行榜进行比较:(1)基于人类评估的Chatbot Arena,(2)基于LLM评判的AlpacaEval-2.0,(3)基于标准指标的CompassRank。表2展示了各排行榜上LLM的相对排名。
Chatbot Arena作为一种劳动密集型众包方法,收集了跨多场景的大量人类偏好标注,并使用Elo评分系统对LLM进行排名,可视为人类评估方法的"黄金"标准。我们的排名结果与Chatbot Arena非常相似,仅Vicuna-13B的排名因场景数据比例不同而略有差异。值得注意的是,Chatbot Arena依赖大规模LLM对战和众多人类标注,而我们的方法自动选择少量信息丰富的样本进行人类标注,节省了时间和精力。
3. 消融研究
相似度测量方法的敏感性。我们首先研究结果对不同语义相似度测量方法的敏感性。除了使用的text-embedding-ada-002外,我们还采用了BERTScore和LLM作为评判的方法。以写作场景为例,这三种度量方法得出的全局排名几乎一致(见表4)。这归因于MAD竞争选择能有效区分两个模型最大差异的指令,所有三种指标都能很好地近似这一点。
采样指令数量的稳健性。我们研究排名结果对人工判断的采样指令数量的稳健性。图2显示了默认top-10排名与其他top-排名之间的斯皮尔曼秩相关系数(SRCC)。所有场景的排名结果都表现出高度稳定性(时SRCC>0.95,时SRCC=1),证明了该方法的样本效率。虽然较大的值提高可靠性,但也增加成本。为平衡可靠性和效率,我们将默认设为10。值得一提的是,值可以灵活调整,并可能因竞争的LLM对而异。如果两个LLM性能相近,我们可以增加进行更多比较;如果性能差异显著,我们可以减少(甚至设为零)以最小化人力成本。这类似于Chatbot Arena中两个LLM之间的对战次数不固定。
指令多样性度量的重要性。我们还探讨了方程2中指令多样性度量的重要性()。下表展示了考虑多样性前后,MAD竞争在写作场景中选择的前10条指令。不考虑多样性时,四条指令与诗歌相关,导致场景和任务选择相对同质。考虑多样性后,每条指令几乎代表独特的任务和场景。我们认为场景多样性有利于探索更多类型的模型失败,从而提供更具指导意义的评估见解。
我们测试了。时,指令显示主题重叠和类似失败,限制了全面评估。时,主题多样性增加,但响应差异减少,增加了"平局",违反MAD原则。因此,选择以平衡多样性和差异化。
四、总结
本论文提出了一种样本高效的人工评估方法,通过最大差异竞争方法对大型语言模型(LLM)进行排名。我们强调,我们的方法不是手动策划带有人工标注的固定测试集,而是自动采样一小组信息丰富的指令来区分LLM的性能,从而显著减少人力劳动。此外,通过MAD竞争收集的反例数据不仅是评估前沿LLM的手段,还有助于训练更加健壮的模型(例如对抗训练)。同时,所提出的方法可以扩展到多模态LLM,其输入包括图像、音频和视频等多种类型的数据。在这种扩展中,我们需要在构建指令池时考虑其他模态,而不需要对其他程序进行重大修改。未来,我们将增加LLM的数量并通过纳入更多场景扩大评估范围,最终创建一个向公众开放的综合排行榜。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】