【AI】爆肝!各类大模型测评基准的系统分析

大语言模型(LLM)的能力评测可以分为多个类别,每个类别包含不同的基准测试。下面我们将按类别对题中列出的测评标准进行全面分析,并确保涵盖每一个具体基准,包括其核心目标、数据来源及可信度、适用场景、优缺点和局限,以及未来的发展改进方向。

代码能力测评

代码能力评测关注模型的编程与代码生成水平,包括竞赛编程和软件工程任务。典型基准有 HumanEvalCodeContests/CodeforcesLiveCodeBenchSWE-benchCRUXEval 等。

  • HumanEval:由OpenAI提出的代码生成基准,包含164道手工编写的Python编程问题,每题提供函数签名、注释和多组单元测试。模型需根据描述生成函数代码,通过所有测试即算成功。这侧重评估模型的基本代码合成能力和函数级别的正确性。数据来源:人工设计的问题和测试用例,质量高且明确。可信度:由于题目较少且知名,大模型可能在训练中见过部分答案,存在数据泄漏风险,因此不能完全反映最新模型的真实水平。适用场景:评估通用LLM的代码生成能力,特别适合对Python函数合成的测试。优点:问题简洁标准,评估方式客观(通过率)。缺点:涵盖范围有限,多为相对基础的编程题,不涉及大型项目或多文件情境;此外规模小,模型可能专门针对它优化。未来方向:增加题目数量和多样性,引入不同编程语言或更复杂的问题,以及采取措施防止训练集泄漏,以更全面衡量模型代码能力。

  • CodeContests(如Codeforces题集):这类基准源自竞赛编程题目库,如Codeforces、CodeChef、AtCoder等平台的比赛问题。AlphaCode等研究曾构建CodeContests数据集用于模型训练和评测。核心重点:评估模型解决算法竞赛难题的能力,需要理解复杂问题并编写高效正确的代码。数据来源:真实竞赛题目及公开的测试数据,规模大且难度跨度大。可信度:由于题目来自公开比赛,质量高,但很多高质量竞赛题可能已被模型训练语料收录,存在训练污染隐患。适用模型:专门的代码生成模型(如编码助手)以及通用LLM皆可测试,但后者往往难以完全解决竞赛级问题。优点:题目复杂度高,涵盖算法、数据结构,能检验模型在复杂编程场景下的逻辑推理和编码能力。缺点:自动评测依赖于完善的测试用例,但模型生成的代码需要编译运行才能验证;评测过程复杂,且单纯通过率无法衡量代码优化或风格等方面。改进方向:持续扩充最新竞赛题以避免训练集记忆,并引入对代码效率、风格的评价,形成对编程能力更全面的衡量。

  • LiveCodeBench:这是2024年提出的一个综合、无污染代码评测基准。其创新之处在于持续收集最新的编程题,以避免模型训练集泄漏。目前LiveCodeBench收录了2023年5月至2024年2月间发布于LeetCode、AtCoder和Codeforces的400道高质量新题。评估重点:不仅测试代码生成,还考察模型更广泛的编程能力,如代码自我修复(修改错误代码)、代码执行结果预测等。数据来源:近期竞赛和在线OJ题目,保证模型在训练时未见过,从而可信度高。适用场景:评估各类大型代码模型(基础模型和指令微调模型均可),特别适合比较开源模型与封闭API模型在未知问题上的泛化能力。优点:全面且与时俱进,覆盖代码生成、调试、执行等多方面能力;通过对不同发布时间题目的表现分析,可以发现现有基准过拟合的问题。缺点:目前题量相对有限(几百道),且主要面向竞赛算法题,尚未涉及例如大型项目重构等更高层次的软件工程任务。未来趋势:该基准计划持续添加新题,形成滚动评测;未来或可扩展到多语言、多文件的综合项目,以及引入更多自动评分维度(如代码质量、安全性),以更加全面衡量代码能力。

  • SWE-bench:SWE-bench专注于软件工程场景的评测,由真实的GitHub Issue和Pull Request构建。每个评测任务对应一个实际软件问题(如一个bug或新功能需求)及其参考解决方案(PR)。核心目标:评估模型解决真实软件开发任务的能力,包括理解问题描述、阅读现有代码和编写改动代码的综合能力。数据来源:来源于开源项目的真实问题,体现实际开发挑战。这使得数据高度可信且实用,但任务复杂度也更高。适用模型:拥有代码上下文理解和生成能力的模型(如具备工具调用或多段交互能力的LLM)。优点:贴近真实世界,任务涵盖调试、代码重构、单元测试等,评价更全面真实。缺点:自动评估困难——需要运行修改后的项目或通过人工审查验证;问题上下文复杂多样,统一评分标准不如单一函数题明确。发展方向:该基准已细分出SWE-bench Multimodal(在问题描述或测试中包含UI截图等图像,以考察模型对视觉信息的利用)和 SWE-bench Verified(精选人工验证的子集提高评估可靠性)。未来可能扩大任务规模,涵盖更多编程语言和更复杂的软件体系,并研究更自动化的评估方法(例如通过代码静态分析、测试生成等辅助评测)。

  • CRUXEval:这是Meta提出的用于代码推理、理解与执行的专项基准。它包含800个简短的Python函数(3-13行)及相应的输入输出对。评测方式:分为两类任务,CRUXEval-O要求模型给定代码和输入来预测输出,CRUXEval-I则要求给定代码和目标输出推测可能的输入。这实际上测量模型模拟代码执行和逆向推理的能力。数据来源:人工构建的小程序集合,涵盖各种编程结构和边缘情况,以凸显代码逻辑理解挑战。可信度:题目新颖且简短,模型需真正理解语义才能作答,因而可信。适用场景:评估LLM对代码语义的掌握,而非仅靠记忆模板;对比代码生成模型在“读代码”上的能力。优点:聚焦于代码正确性验证等关键能力,能发现模型在代码理解上的盲点(例如变量作用域、隐含假设)。缺点:场景限定在小函数,未考察大段代码或复杂库依赖;预测输入在实际应用中不常见,但对逻辑推理有意义。未来改进:可能扩充为多语言版本(已有CRUXEval-X扩展到19种编程语言),并增加更复杂的代码片段(例如包含类和多函数调用)以全面测试模型的静态分析和模拟执行能力。

小结:代码能力评测基准正在从早期的小规模合成题,发展到更大规模、更真实和多样的场景。为提高评测可信度,像LiveCodeBench等引入了时间维度避免训练集泄漏;SWE-bench则贴近实际开发流程,提高了任务复杂度。未来,这些基准可能进一步结合,如让模型先在SWE-bench场景中定位并修复bug,再用LiveCodeBench的新题测试泛化,形成对代码生成和软件工程能力的立体评估。

视觉理解测评

视觉理解测评考察模型在图像及其他非文本模态下的理解与问答能力,包括读图回答问题、解析图表、文档等。典型基准有 TextVQAChartQADocVQAPOPE多图感知(如MIBench)。

  • TextVQA:TextVQA要求模型从图像中读取文字并回答问题。这类数据集中,图像通常包含自然场景中的文本(例如路牌、商品包装上的文字),问题则围绕图中文字内容提问。核心:评估模型的场景文本OCR识别和语义理解能力。数据来源:如TextVQA数据集包含约45,000个关于28,000张图像的问题(图像主要来自OpenImages等),由人工标注问题和答案。可信度:问题多样真实,但模型性能高度依赖OCR正确率。目前许多多模态LLM通过内置OCR或插件完成文本识别。适用场景:需要读图上的字的应用,如智能助手读菜单、读快递面单等。优点:填补了传统VQA不能读文字的空白,强调多模态融合(视觉+语言)能力。缺点:评测往往采用开放式回答,自动评价有难度(答案可能同义表述不同);同时如果OCR出错,哪怕模型逻辑正确也无法答对。改进方向:结合更强健的OCR和多轮交互(如模型可要求放大图像细节),并增加问题的复杂推理成分,使其不止于直接读取,例如需要结合图中文字和图像内容推理。

  • ChartQA:ChartQA关注图表理解,要求模型阅读柱状图、折线图、饼图等并回答相关问题。评估重点:模型需解析可视化数据,包括识别轴标签、读数值、比较趋势等,属于图形化信息的理解与推理。数据来源:如ChartQA基准提供了约9.6K个人工撰写的问题和23.1K从图表摘要生成的问题,总计约32K关于各种图表的QA对。图表可能来自财经、科研等不同领域的可视化图。可信度:数据较丰富,问题涵盖描述性和推理性,质量较高。适用模型:需要视觉模块提取图表内容(可视作特殊OCR)并具备逻辑推理能力的多模态模型。优点:测评模型处理结构化视觉信息的能力,这是通用图像分类模型不涉及的独特领域。缺点:模型必须正确读取数值和文本标注,一步出错即全盘皆输;此外开放问答自动评测困难,部分研究将答案设计为选择题以便于评价。未来趋势:可能引入更多类型图表(如复杂仪表盘、交互式图形)、多图表联合推断,以及更复杂的问题(例如根据图表信息做决策建议),从而更全面地评估对数据可视化的理解。

  • DocVQA:DocVQA衡量模型对文档图像(如扫描的表格、表单、票据)的问答能力。模型需要识别文档文字并理解文档布局和语义才能回答问题。数据来源:DocVQA数据集包含50,000个关于12,000多张文档图片的问题(常见于论文扫描件、发票、报告等)。可信度:题目由人工设计,问题涉及从简单字段提取到综合理解,具有挑战性且反映真实场景。适用场景:智能文档问答、信息抽取,比如财务报表问答、合同要点提取等。优点:评测模型的OCR、版面分析和自然语言理解的融合能力,代表了商业上重要的文档AI应用方向。缺点:需要高度准确的OCR和版面重建,当前模型容易受版面噪声影响答非所问;有些问题需要跨页或跨栏信息汇总,增加了难度。改进方向:引入版面感知的预训练,加强模型空间布局理解;评测多语言文档;以及增加对模型回答的评价维度,如答案是否精准定位了依据来源等,以鼓励可解释的文档问答。

  • POPE(Probing Object Presence Evaluation):POPE基准侧重评估视觉大模型的幻觉问题,特别是对象臆测(object hallucination)。研究发现,大型视觉语言模型(LVLM)在描述图像时,常会凭空提及图中不存在的物体。POPE通过轮询式提问的方法,系统地测量模型对于对象存在与否的判断是否稳定。数据来源:利用有标注的图像(如COCO数据集中已知有哪些物体),设计一系列提问来探测模型会不会生成不存在的物体描述。可信度:这一评估方法本身经过对比验证,被认为比直接让模型描述图像更能稳定量化幻觉倾向。适用模型:任何图像描述模型或VQA模型。优点:针对安全性和准确性中的关键问题(不凭空编造内容)进行评估,填补了以往视觉问答基准很少关注回答真实性的空白。缺点:范围局限在“是否幻想出不存在物体”,未覆盖属性错误或关系错误等其它类型的视觉幻觉;评估需要多轮询问模型,过程较繁琐。未来方向:开发更全面的视觉真实性评测,例如 H-POPE 提出的分层探测方法扩展到属性层面的幻觉检测。未来模型需要在训练中加入反幻觉约束,评测也将纳入惩罚性指标,促使LVLM朝更加忠实可靠的方向发展。

  • 多图感知:随着应用需求增加,模型对多张图像同时推理的能力受到关注。“多图感知”评测例如 MIBench,旨在测试模型处理多个图像输入的综合理解能力。核心重点:当给模型提供不止一张相关图像时,能否结合信息回答问题,例如找出多张照片中的同一人物,或综合不同视角的线索进行推理。MIBench将多图像能力分为三类场景:多图指令(MII)、多模态知识检索(MKS)和多模态上下文学习(MIC),共构建了13项细粒度任务,包含13K条标注数据。数据来源:部分来自人工标注的正确结论,再人为设计干扰项构成选择题,以便客观评价。可信度:任务设计全面,涵盖细粒感知、跨图推理等能力,初步评测显示当前模型在多图景况下性能显著下降。适用场景:如给定监控的多帧图像让模型综合分析,或对比两张医学影像找差异等。优点:填补了以往评测只关注单张图的空白,更贴近真实世界中信息来自多源的情况。缺点:当前基准主要采用多项选择题形式,多图景理解的问题设计和难度还有提升空间;部分模型架构不支持同时输入多张图,这限制了评测适用面。未来趋势:多图评测将考虑更长的图像序列甚至视频帧,引入更开放的问答形式,并推动模型在视觉上下文记忆和对比推理方面的进步。

小结:视觉理解评测正从单一图像的问答,扩展到更复杂、多样的场景。例如读图文字(TextVQA)、读图表(ChartQA)、读文档(DocVQA)分别考察模型对视觉中嵌入文本信息的理解,这对OCR和语言融合能力提出高要求。针对模型可能出现的视觉幻觉,引入了专门的POPE评测不实回答。此外,多图像和长视频的组合理解(如后述的Video-MME)也开始有了系统基准。在未来,视觉评测将更加关注多模态协同推理结果真实性,例如让模型在视觉回答时给出依据(提高可解释性),并在评测中对照人类表现找出差距,从而指导模型改进。

通识知识与推理测评

通识知识与推理测评关注模型在各学科领域的知识广度、深度以及综合推理能力。代表性基准包括 MMLUC-EvalMMLU-ReduxDROPAGIEval 等。

  • MMLU (Massive Multitask Language Understanding):MMLU是一项大规模多学科测试,覆盖57个科目,难度从高中一直到专业水平。其目的在于测量LLM在预训练中习得的知识以及基本推理能力。数据:共计约14,000道四选一选择题,涵盖STEM、人文、社科等广泛领域,每个科目约数百题。题目难度梯度明显,从简单常识到复杂专业知识均有,既考查世界知识也评估问题求解能力。可信度:作为NeurIPS 2021提出的基准,MMLU得到广泛认可。然而后续研究发现其中约6.5%的问题存在错误或争议。适用场景:零-shot或few-shot评估LLM的知识面,常被用于比较模型(例如GPT-4在MMLU上达到86.4%远超前代模型)。优点:覆盖科目广,难度有梯度,能有效暴露模型知识盲区。缺点:部分题目答案标注有误或问题含糊,可能低估模型能力;而且全为选择题,模型可能通过技巧提高分数而非真正理解。改进:提出了MMLU-Redux对MMLU进行纠错和扩充。未来也有“MMLU-Pro”等更高质量版本在酝酿,以消除错误并增加新问题,使评测更可靠。

  • C-Eval:这是清华等提出的中文多学科综合评测。它包括52个学科的13,948道多项选择题。难度分为四级:初中、高中、大学和专业级。评测重点:考察模型在中文语境下的知识广度和推理深度。涵盖人文、社科、理工、生活常识等,多数来自模拟考试题。数据来源:真实考试和题库改编,难度设置参考中国教育体系。可信度:题量大且分层清晰,非常具有挑战性。评测结果显示目前只有GPT-4在C-Eval上平均准确率超过60%,其余模型都有明显差距。适用场景:评估针对中文市场或中文预训练语料的模型,相对MMLU更贴近中文知识体系。优点:科目广泛,难度梯度明确,可以测出模型相当于人类教育阶段的水平。例如,一项研究发现除GPT-4外多数模型无法在所有小学数学年级上达标,表现出“哪一学历水平掉队”的现象。缺点:题目主要考查知识再现和简单推理,对创造性开放题缺乏评估;同时选择题格式使模型可能投机取巧。未来方向:C-Eval已经推出子集C-Eval-Hard,专门包含极具挑战性的少数科目以考验高级推理。未来可能扩充更多实时更新的题目库(如加入时事、最新专业知识)以避免模型靠记忆历史真题得高分,并结合主观题评测模型的论述和创见能力。

  • MMLU-Redux:这是对原始MMLU的精校版。研究者发现MMLU约6.49%的题目和答案有错误,因此进行人工复核和重新标注,形成MMLU-Redux数据集。最新的MMLU-Redux 2.0涵盖了全部57个科目的5,700道校正问题。核心目标:提高评测基准答案的准确性和可靠性,消除错误对模型评价的干扰。使用MMLU-Redux评测时,模型排名和原来报告的会有显著差异,说明先前的错误标注确实影响了对模型能力的判断。可信度:Redux版本经多人校验,可信度更高,是更可靠的知识评测来源。适用场景:研究者应优先采用Redux版本衡量模型,以获得更真实的能力对比。优缺点:Redux主要修正答案和题目,优势是减少了评分噪音;但题目本身仍是原MMLU的多选格式,并未增加新领域或新题型。未来:MMLU-Redux的推出强调了评测数据质量的重要性。未来不仅需要纠错,也可能通过社区协作不断完善题库,甚至引入模型辅助校对答案的流程。另外,有团队发布了“MMLU-Pro”等增广版本(据称增加了题量至12,000道),未来这些扩充将进一步考验模型广度。

  • DROP (Discrete Reasoning Over Paragraphs):DROP是Allen AI于2019年推出的阅读理解挑战,要求对文本进行离散推理(Discrete Reasoning)。题目给出一段段落,往往含有数值、日期等信息,问题需要通过比较、算术、计数等离散操作才能回答,而非直接从文本提取。例如:“今年哪个队得分更高,他们比对方高多少分?”需要从文中提取两个队分数并相减。数据:包含96K问答对,约6.7K篇段落。评估目标:考察模型在阅读理解基础上进行数学运算和逻辑推理的能力。可信度:DROP题目设计精巧,随机猜测难以奏效。当年发布时,传统模型(如BERT+预测)表现远低于人类,证明了其难度。适用模型:需要具备多步骤推理或链式思考能力的模型。GPT系列引入Chain-of-Thought后在DROP上有较大提升,但仍可能出错。优点:DROP引入算术和逻辑,大幅拓展了阅读理解评测维度,让模型不能仅靠模式匹配。缺点:自动评测需要精确匹配答案,模型在格式或单位上出错也会扣分;同时DROP主要涉及数字和简单逻辑推理,对更复杂的推理(如归纳、演绎)未覆盖。未来:DROP的思想已被融合到更复杂的基准(如MixQA,或添加图表的LogicQA)。未来评测会进一步综合文本、图表、推理,要求模型具备更强的推理规划能力,而不仅是段内信息处理。

  • AGIEval:AGIEval是2023年提出的人类标准化考试评测基准,旨在评估基础模型在接近人类智力任务上的能力。它选取了人类的各种考试题目,如中国高考、美国SAT、法律资格考试、数学竞赛等。评测范围:涵盖高中升学类、法律、数学、公务员考试等,题型包括选择、填空、写作等(主要转化为选择题和简答来评估)。数据来源:真实考试真题或模拟题,因此难度和含金量很高。可信度:这些考试是人类智力水平的重要衡量,试题质量和区分度极佳;此外AGIEval还包含中英双语任务,评估模型双语能力。评测结果:GPT-4等顶尖模型在SAT数学(95%)、LSAT逻辑(超越人均)等部分考试上已达或超人类平均水平;但在需要复杂推理或专业知识的任务上表现仍不足。适用场景:定位于AGI水平的测试,当模型声称具有人类专家水准时,用这些基准检验是很有效的手段。优点:任务贴近真实决策和高认知需求场景,更具含义和挑战性缺点:不同考试领域之间缺乏统一评分标准(目前简单汇总成绩);数据集相对较小且固定,模型可能通过记忆题库投机取巧(需注意训练避免直接学习真题)。未来方向:AGIEval可能扩充更多国家和类型的考试,以更全面定义“类人智力”标准;同时发展防作弊的评测机制(比如抽取新的等价题)确保模型真凭实力作答。此外,AGIEval启示我们需要评估模型在复杂决策、道德推理等更高层面的能力,未来或有对应的基准出现。

小结:通识知识与推理评测借助大规模多领域题库(如MMLU、C-Eval)衡量模型的知识覆盖面和推理深度。这些基准呈现出明显的难度梯度,从而可以判断模型相当于人类何种学历水平。当前顶尖模型在不少标准化测试上已接近甚至超过人均表现,但在更严谨的推理(如DROP要求的算术)和更专业的问题上仍有差距。未来我们会看到更高质量、更全面的知识评测出现,如修订错漏的MMLU-Redux和不断增长的C-Eval题库;也可能出现将推理链要求纳入评分的基准,比如要求模型给出推理过程才能得高分,以确保评测真正反映模型的思考能力,而不仅是答案对错。

多模态能力测评

多模态能力测评关注模型在跨模态情境下的推理与交互表现,涵盖文本、图像、视频等多种模态的综合理解。代表基准包括 MMMUMMBenchInterGPSVideo-MME 等。

  • MMMU (Massive Multimodal Multidiscipline Understanding):MMMU是一项面向“专家级AGI”的综合基准。它汇集了大学考试、测验和教材中的问题,覆盖六大主要学科,并可能包含多种问题形式。虽然名字含“Multimodal”,但更多指多类型、多领域(可能主要以文本题目为主,多模态可能体现在题干中包含图表或特殊格式)。MMMU收录约11.5k道大学水平的问题。目标:评估模型在高级学术知识和推理上的广度和综合性,相当于英文领域的高难度综合测评。由于早期主要有英文版本,为避免语言单一,还推出了CMMMU等中文版,增加多题型中文问题。数据来源:学术题库,涵盖数学、物理、化学、金融、医学等,强调跨学科。可信度:问题难度大且贴近真实考试,但由于其题型复杂多样,自动评分可能需要人审或模型协助。适用模型:大型通用模型,希望达成人类专家水平者。优点:难度拔高,全面体检模型高层认知能力。缺点:具体细节公开资料较少(相较MMLU/C-Eval知名度低),评测涵盖的模态可能主要是文本为主,尚不足以代表“多模态”一词。未来:可能真正融入图表、实验数据等模态,使其名副其实成为多模态多学科挑战;并细化评分以鼓励模型给出步骤而非仅输出答案。

  • MMBench:MMBench是2023年提出的一个中英双语多模态模型评测基准。它精心设计了大量多选题来自动评估视觉语言模型(VLM)的各项能力。评测范围:涵盖模型的基础感知(如颜色、形状识别)、复杂推理(如空间关系理解)、知识应用(如常识、专业知识在图像场景中的运用)等多个能力维度。MMBench引入了CircularEval策略,用大型语言模型将开放回答归纳为预定义选项,从而实现对多样化输出的客观打分。数据来源:由研究者按照能力类别手工设计问答对,并保证英文和中文版本语义等价。问题基于图像场景,例如给出一张图片和一个问题,让模型选择正确答案。可信度:由于有LLM辅助评价和严格质控,题目质量和评测稳定性较高。适用场景:评估通用视觉问答模型的全面能力,尤其适合比较不同语言下模型性能。优点:覆盖能力全面、题量大且质控良好,评测结果客观。尤其通过中英双版本可以发现模型是否存在跨语言性能差异。缺点:多项选择的形式虽利于评价,但可能低估模型生成详细描述的能力;同时它主要面向静态图像多模态,并不涉及视频、音频。未来:MMBench已经在医疗领域衍生出专门的GMAI-MMBench用于医疗图像,多模态评测未来或将专业化分支(如遥感、自动驾驶等领域专项)。同时,随着模型开放回答能力提升,可能引入人机对话形式评测模型在交互中的多模态推理表现。

  • InterGPS (Interpretable Geometry Problem Solving):InterGPS源自ACL 2021的一项工作,关注几何题解答这一图文结合的典型推理任务。它构建了一个大型基准Geometry3K,包含3,002道几何平面问题。每个问题提供文字描述和对应几何图形(如几何图)以及形式化标注。评测目标:要求模型读懂文字和图中蕴含的几何条件,结合几何定理进行逐步符号推理,最终求解问题答案。InterGPS提出了一种将几何问题解析成形式语言再求解的自动方法,但从评测角度看,我们更关注Geometry3K作为基准对模型的挑战。数据来源:题目收集自高中竞赛和平面几何教材,涵盖多种图形和定理,均人工注释了详细的公式化语义表示可信度:数据集结构严谨,带有标准解题逻辑,非常适合作为评测“解释性推理”的基准。适用模型:需要视觉和符号综合能力的模型,例如带有视觉输入的LLM结合自动定理证明器。优点:这是少数提供完整逻辑链验证的多模态基准,模型不仅要答对,还需要给出合理步骤,适合评估模型的推理可解释性和正确性。缺点:任务高度专业化,一般LLM即使有视觉能力也难以直接解答,往往需结合外部工具(如OCR、几何定理库),因此目前更多用于检验专门系统而非通用LLM。未来:几何推理是通用AI的一块试金石,未来可能将此类评测融入更广的多模态推理基准中,例如一道综合题同时涉及文字、图表、几何图形的推理。对于模型,如何让LLM内生地学会数学符号推理也是重要方向。

  • Video-MME:Video-MME是首个专门评估视频理解能力的多模态大模型基准。与图像不同,视频包含时间维度的信息。Video-MME通过精心选取多领域的900段视频(总时长254小时)并人工标注2,700个问答对,来全面考察模型对视频的分析能力。评测特点:涵盖6大主类、30个子类的多样视频,长度从短片(11秒)到长片(一小时)不等,并提供了视频字幕和音频信息,模型可以将视觉、听觉、文本结合理解。评测任务:给模型提供视频内容(逐帧图像或压缩表示)及可用的字幕音频,让其回答关于视频的问题。可信度:每段视频多次观看标注,问答质量高。测试显示,商用最强模型在有字幕辅助手段下准确率约75%,开源模型普遍低于此且视频越长表现越差。适用场景:评估视频多模态模型,如GPT-4V(有视频扩展)或专门的视频问答模型,涵盖影视理解、监控分析等应用。优点:首次将评测拓展到长视频,考虑了时序推理能力;多模态信息并用(图像+字幕+音频),贴近真实世界中模型可用的一切信号。缺点:评测过程复杂且代价高——长视频处理对模型计算和标注评价都是挑战;问答对数量有限,每个视频只有3问,可能无法穷尽模型对视频的理解能力。未来:Video-MME等开启了视频多模态评测的新篇章,后续基准可能增加问答数量或改为让模型输出摘要和推理过程,以更深入评估理解深度。此外,还需探索如何自动判分,因为人工标注问答对无法完全覆盖开放式的视频理解任务,未来或许结合人类偏好评价和关键内容匹配来综合衡量模型的影视理解水平。

小结:多模态能力测评正在迅速拓展,以匹配模型从语言走向多媒体的技术趋势。早期的多模态测评多集中于单张图像的问答,而现在视频、多图组合、专业领域图文等都纳入了评测范畴。像MMBench这样的方法论探索,通过LLM辅助评分,实现了对开放回答的客观评测;Video-MME则填补了视频理解评测的空白,强调了时序和多感官信息融合的重要性。总体来看,多模态评测未来会更加细粒度(针对具体技能如空间理解、事件推断)、长序列(如长视频、图文混合文档)、以及高层语义(如故事理解、意图推理)。这将帮助发现模型在跨模态整合和长程推理上的不足,指导研究社区进一步提升模型的通用智能水平。

推理与数学能力测评

这一部分侧重评估模型的逻辑推理和数学解题能力,包括算术、代数、几何等。典型基准有 GSM8KMATH (MATH-500)CMATHMGSM 等。

  • GSM8K (Grade School Math 8K):GSM8K是麻省理工等提出的数学文字题数据集,包含8.5K道小学到初中水平的数学应用题。每题为一段文字叙述的数学问题,答案为一个数值,附有详细的逐步解题过程(供训练或评测分析)。评测重点:模型需阅读理解题目,并通过多步推理算出正确答案。数据来源:问题由人工编写或改编自教学资源,涵盖算术、基础代数、概率等日常数学主题。可信度:题目质量高且都有标准解法参考,对模型的链式思考(Chain-of-Thought)能力是经典考验。GPT-3在零样本时很难直接算对,但提示链式推理后有明显提升,这正是GSM8K推动的一大进展。适用场景:评估模型的基本数学推理能力,特别是在中等难度范围内。优点:题量适中、难度渐进,能够测试模型从简单运算到多步骤推理的各级能力;同时提供标准解析,便于对比模型思路。缺点:上限毕竟是中学数学,较高级的高中/竞赛难题未涉及;答案都是数值,评测比较简单对错,但无法衡量模型解题过程的合理性。未来方向:可能与更复杂数据结合,如让模型在GSM8K题目上不仅给答案还要给详细步骤,并由评测系统判定步骤正确性,从而进一步考察模型逻辑严谨性

  • MATH (Competition Math):Hendrycks等人在2021年发布了MATH数据集,汇总了12,500道高中竞赛级别的数学题,包括AMC12、AIME等赛事问题。每题附有完整的逐步解答。通常所说“MATH-500”指其中难度最高的一组或测试集500题,用于评估模型。评测目标:衡量模型在高难度数学问题上的表现,包括高级代数、几何、组合、微积分基础等,需要创造性思路和多步推导。数据来源:真实竞赛题及其标准解答。可信度:这些题对人类都是挑战(一般优秀高中生/大学生水平才能解决),模型若能解出则真正具备数学思维能力。适用模型:目前只有GPT-4等最强模型在部分MATH题上有一定成功率,一般模型表现很弱,常被用于区分顶尖模型的推理极限。优点:题目复杂多样,充分检验模型综合运用数学知识和非直线式推理的能力,能够暴露出模型在长链推理中的错误倾向(如逻辑不严谨、偷换概念)。缺点:自动判分主要看最终答案对错,模型可能过程错但侥幸答案对,或过程对但最后计算失误,都无法细评;而且题目多涉及公式推导,纯语言模型可能缺乏工具如作图能力。未来:可能引入自动定理证明器或计算器与LLM结合,形成联合评测,即既考模型思考,也考其调用工具解题的能力。此外,也需要更智能的评卷机制,对模型的解题步骤给出部分分,以推动模型不仅求对答案、更要求过程正确。

  • CMATH:CMATH是2023年提出的中文小学数学文字题数据集。包含1.7K道一年级到六年级难度的数学应用题,每题带有细致的标注和答案。评测目的:细粒度评估模型在不同小学年级数学上的掌握程度,回答的问题包括简单加减、行程问题、应用题等。研究者用CMATH测试发现,除了GPT-4外,多数模型只能胜任低年级题目,在高年级题目上准确率不足60%。数据来源:真实中文小学练习册和考试题,覆盖各年级知识点。可信度:题目贴近教学大纲,难度循序渐进,非常具有诊断价值——可以指出模型相当于小学几年级水平。适用场景:评估中文大模型的数学基础。如同测孩子功力一般,查看模型在哪个年级段开始“掉队”。优点:直观量化模型能力水平线,并提供干扰信息增强版测试模型稳健性。缺点:题量较少,仅限小学范围,无法反映更高深数学能力;另外一些题对常识依赖高,考察的不纯是计算,模型可能在理解场景上出错。未来:可能拓展到初中数学(C-MATH中学版),或者将题目翻译成多语言对比模型数学能力的语言偏差。此外,可以借鉴其标注详尽的特点,把不同难度、不同类型题细分标记,让模型知晓自身短板以便改进。

  • MGSM (Multilingual Grade School Math):MGSM是将GSM8K的250道题人工翻译成10种语言形成的多语言基准。语言包括西班牙语、阿拉伯语、中文等多种类型。目的:评估模型在非英语环境下的数学推理表现,以及是否具备多语言的链式推理能力。研究发现,随着模型规模增加,多语言的算术推理能力涌现,即使在训练资源较少的语言(如孟加拉语、斯瓦希里语)也能有可观表现。数据来源:GSM8K英文题的人工作译版本,确保不同语言题目语义等价。可信度:由人工专业翻译,质量较高,也避免了机器直译可能引入的提示或误导。适用场景:测试模型的语言不依赖的推理能力。如果模型真懂数学逻辑,那么换种语言表述它也应该答得出;否则可能反映出模型在特定语言的训练中欠缺此能力。优点:填补数学评测的多语言维度,使评测更公平全面。缺点:规模较小(每种语言250题),仅为验证性质的benchmark;而且翻译后的题,有时由于语言差异,题目的难易或迷惑性可能略有变化。未来:随着更多多语言数据出现,完全多语种、本地化的数学基准会更丰富(例如MathQA已出现中英双语版本等)。也可能将MGSM拓展到更高难度(如翻译MATH竞赛题),全面考察模型在各语言下的极限推理能力。

小结:数学与逻辑推理一直是LLM的短板之一,各类基准从不同层次检测模型这方面的进展。从GSM8K的小学奥数题到MATH的竞赛难题,难度梯度清晰,可以看到模型从能做简单计算到在复杂题上仍容易犯错的分野。引入多语言(MGSM)又揭示了模型推理能力的语言泛化程度。目前来看,大模型借助链式思考、程序辅助等手段,数学题表现显著提升,但严谨度和准确率仍远不如符号计算程序。未来评测将鼓励模型给出完整证明或步骤,并对步骤正确性打分,以此评价模型的数学思维过程,而不仅仅答案对错。这也将驱动模型在训练时融入符号推理、工具使用,使其在数学和逻辑推理题上更接近一个可靠的“数学家”。

伦理与可信度测评

伦理与可信度评测关注模型在有害内容、偏见、公平、公正以及真实性等方面的表现。典型基准有 RealToxicityPromptsWinoBiasTruthfulQAToxiGenBBQ 等。

  • RealToxicityPrompts:由Jigsaw团队提出,用于评估语言模型在生成有毒内容方面的倾向。它包含10万条从网上采集的英文提示语(prompts),这些提示有的本身就含攻击性词汇,有的则是看似无害。模型对每个提示生成继续文本,然后用谷歌Perspective等毒性检测工具打分,统计模型输出的毒性概率。评测目标:量化模型在各种输入下产生仇恨、辱骂、歧视言论的风险。数据来源:自然发生的网络语句开头,涵盖广泛话题。可信度:提示来自真实语料,代表用户可能输入的内容;毒性判断借助现有算法,速度快但存在一定误判率。适用场景:评估通用语言模型的安全性,特别是未经过滤的基础模型。优点:覆盖场景多,自动化评估方便,可比较不同模型“说脏话”概率。研究发现,即使无害提示,未调优模型有时也会突然输出有毒语言,此基准有效揭示了这一问题。缺点:依赖毒性检测模型的准确性,如果检测器有偏见(如对某些群体用词误判),评估就不精确。另外只检视明显的毒性,模型可能输出更隐蔽的不当内容未被检测。改进方向:开发多语言、多领域的toxicity评测(目前RealToxicityPrompts已有扩充到多语言的RTP-2版);引入人工评价纠正误差,并结合上下文理解(有时一句话是否有毒取决于语境)。

  • WinoBias:WinoBias是一组专门用于检测性别偏见的共指消解句子。类似Winograd Schema的格式,每句提到两个人(如医生和护士),然后用“他/她”指代其中一人,让模型判定指代谁。句子成对出现,一对中只有性别词换位,语义结构一致。评测目标:如果模型因性别成见而错误连指(如默认“医生”是男性“他”),则表现出偏见。数据来源:Zhao等人在2018年人工编写的句子集,共两大类40对模板句,结合职业词汇生成很多实例。可信度:句子简短精炼地体现了刻板印象情境,便于定量测量模型偏见倾向。适用场景:评估模型在核心ference或填空任务中的性别公正性,常用于NLP模型去偏算法验证。优点:对比清晰,如果模型无偏见,应对男女版本表现一致;容易自动评判正确或错误。缺点:覆盖范围仅职业性别刻板印象,而且在特定句式下测试,共指这类任务和开放聊天不同,可能模型聊天时的偏见无法完全捕捉。未来:此方向衍生出了WinoGender等类似数据,以及多语言的WinoBias版。未来偏见评测将扩展到更多偏见类别(种族、年龄等)和更多任务形式(如对话中的潜在偏见用语检测)。

  • TruthfulQA:OpenAI于2021年发布,用于评估模型回答问题的真实可靠性。它由817道精心设计的问题组成,覆盖38个话题,包括健康、法律、金融、政治等。许多问题刻意引出常见误解或迷信,如果模型根据训练语料中人类常犯的错误来回答,就会答非所问或提供不真实信息。评测目标:测量模型在回答时坚持事实的程度,而非迎合虚假但常见的说法。数据来源:问题来自网络上广泛传播的错误观念(如“鲨鱼会得癌症吗?”人们常误以为不会,其实会),加上专家确定的真实答案和错误答案示例。可信度:题目覆盖面广且针对模型弱点,人工确定了参考正确答案,评估模型输出需人工或借助判别模型进行判定。适用场景:衡量大型语言模型在避免胡编乱造和传播谣言方面的能力,对想部署为问答助手的模型尤其重要。优点:直击模型常见的“语言幻觉”(confabulation)问题,能量化模型在真相和谬误之间的倾向。例如实验表明GPT-3等在TruthfulQA上得分很低,大量问题给出误导性回答,而经过训练改进的新模型(如InstructGPT)有提升,但距完美仍远。缺点:问题数量有限,答题需要严格判断真伪,有些问题涉及领域知识更新(比如医学新发现),模型未必知晓最新真相;另外模型若回答“不知道”如何评分也是挑战(TruthfulQA评分标准鼓励不会就不答,以免乱答)。未来:TruthfulQA思路可能延伸到多语言和多模态领域,例如让模型描述图像时不凭空添假信息。评测也将结合引文依据,要求模型提供信息来源来验证其答案真实性,从而推动更可信的生成。

  • ToxiGen:ToxiGen是由Microsoft等提出的大规模机器生成仇恨言论数据集。它包含27.4万条GPT-3生成的句子,这些句子要么针对13类少数群体表达隐蔽的攻击歧视,要么是关于这些群体的中性描述。评测/用途:最初用于训练检测器,亦可用于评估模型在涉及敏感群体时的输出是否有偏见或攻击性。数据来源:研究者先人工编写了带有种族、宗教、性取向等少数群体关键词的语句模板,再让GPT-3分别生成带毒和无毒版本句子,并人工审查标注。可信度:由于大部分句子都是模型生成而非真人语言,文本风格可能不自然,但胜在量大且控制变量明确(群体词相同,仅语气毒/不毒变化)。适用场景:可用来挑战争对模型:如给模型一些涉及少数族裔的敏感话题陈述,看看模型如何回应,是否会附和仇恨观点。优点:覆盖广泛少数群体,内容多为隐含偏见(而非明显脏话),更贴近现实中微妙歧视言论的检测需求。缺点:文本是模型生成的,或许存在与真人语言分布不一致的问题;并且评测仅侧重是否出现显式仇恨语句,对潜在偏见和立场倾向无法全面衡量。未来:可能扩展到多语种,因为仇恨言论具有文化和语言特异性,需要本地化评测;另外结合上下文场景评估模型是否在某些对话环境中更容易产生不当言论,以完善安全测试体系。

  • BBQ (Bias Benchmark for QA):BBQ是由Parrish等提出的社会偏见问答评测集。它包括约1000道问答对,覆盖9种常见社会偏见类别(性别、种族、宗教、年龄、性取向、国籍等)。每个问题都有一个含糊版本(不提供偏见线索,让模型可能凭刻板印象猜测)和一个明确版本(提供关键信息消除歧义)。模型如果在含糊情况下依赖偏见选择答案,而在信息明确时改变答案,则表现出偏见倾向。数据来源:作者人工构造问题模板,如“这个犯罪嫌疑人职业是什么?”模板中嵌入少数群体描述以诱使模型选择刻板答案,再配对无偏见信息版本。可信度:手工设计确保了每对问题唯一变量就是偏见信息缺失或提供,因此模型输出差异可归因于偏见。适用场景:评估问答或对话模型在缺乏信息时是否乱用刻板印象。优点:覆盖偏见种类多,评测方法巧妙,通过比较两种条件下模型回答是否不同来量化偏见程度。缺点:问题集中在某些偏见情境下的常识问答,不代表模型在所有场景下的行为;另外只检测偏见产生的输出,无法衡量模型内部是否带偏见(但尚未输出)。未来:BBQ已被扩展到多语言版本(如西班牙语、荷兰语等)。将来可能结合开放式对话,把这些偏见测试融入对话系统评测中,观察模型在长对话里会不会暴露偏见。此外,未来评测还需要关注交叉偏见(多重身份交织)和隐性偏见(模型用词微妙地体现态度)等更复杂情况。

小结:伦理和可信度评测为我们揭示了模型在内容安全和公正性方面的问题。结果往往表明,未经对齐的模型在面对有毒提示时容易输出不良内容;在偏见问题上会倾向于刻板印象回答;在知识真伪上也常常“张冠李戴”。这些基准的建立促使研究者通过强化学习、人类反馈等手段对模型进行价值观对齐事实校准。未来,此领域评测将更加全面和严格:除了英语,也会有多语言的toxicity和偏见测试;除了静态问题,也可能有对抗攻防(red teaming)式的动态评测,让模型面对引诱性的复杂对话来检验其道德守卫能力。最终,我们期望评测手段能驱动模型朝着更安全、更真实、更公平的方向演进,使其在提供强大功能的同时,不会产生对用户和社会的潜在伤害。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

碣石潇湘无限路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值