模型评测概述:
大语言模型评测是全面衡量大语言模型(LLM)能力、性能与实用性的系统性工作,关乎模型的优化方向与实际落地效果:
- 评测维度
- 基础能力
- 语言理解:考察模型对各类文本语义的解读,像回答常识问题、解析复杂句式语义。例如,询问“‘光年’是时间单位还是距离单位”,精准作答才说明理解到位。
- 语言生成:关注生成回复的语法正确性、连贯性、逻辑性,以及内容丰富度。比如要求续写故事,查看续写内容有无情节断裂、语病等问题。
- 专业能力:评估在特定领域知识的掌握与运用,像医学领域的病症诊断建议、法律条文解读,考验模型是否能给出专业且精准的回应。
- 推理与逻辑能力:给出需要推导、归纳、演绎的任务,像是逻辑谜题、基于数据的分析推理,观察模型能否条理清晰地得出合理结论。
- 安全性与伦理:检查模型输出有无包含歧视、暴力、侵权类内容,以及抵御恶意诱导的能力,保障内容健康合法合规。
- 泛化能力:面对全新主题、从未见过的数据时,模型的应对表现,若能灵活适应新话题,意味着泛化佳。
- 基础能力
- 常用评测指标
- 自动指标
- 困惑度(Perplexity):衡量模型预测下一个单词的不确定程度,越低表明模型对样本的拟合与理解能力越强,在生成文本时更自信、精准。
- BLEU分数:对比生成文本与参考文本的词块重叠情况,取值 0 - 1,越接近 1,生成内容和标准答案越相似,但它难以考量语义层面契合度。
- 人工指标:对于复杂任务,组织专业人员从准确性、实用性、流畅性等维度打分,像评估生成的学术论文提纲,专家依据专业知识与经验判断质量高低。
- 自动指标
- 评测方法
- 基准测试:利用公开的标准评测数据集,例如GLUE(General Language Understanding Evaluation )、SuperGLUE ,里面涵盖多种自然语言处理任务,各模型统一在此数据集上跑分,便于横向比较。
- 定制化测试:根据模型应用场景与目标受众,设计专属任务集,如为服务金融从业者的LLM,定制金融资讯解读、投资策略撰写类题目。
- 对抗性测试:模拟恶意用户,用诱导话术、模糊指令等尝试让模型输出违规内容,检验模型的安全防护机制。
- 用户体验调研:邀请真实潜在用户使用模型,收集反馈,了解他们在日常使用场景中的满意度、遇到的问题,从使用者视角完善模型。
- 评测流程
- 确定评测目标与范围:明确是侧重通用能力考查,还是聚焦某特定领域;是关注基础性能提升,还是主打安全性优化。
- 数据与任务准备:收集或制作评测数据,定义评测任务,若是专业能力评测,还需咨询领域专家。
- 实施评测:运行模型处理评测任务,收集输出结果,同时记录运行时间、资源消耗等辅助信息。
- 分析与反馈:根据指标分析结果,撰写评测报告,指出模型优缺点,为后续的参数调优、架构改进、数据扩充等提供支撑。
通用底模评测
中文大模型评测标准的重要性在于它可以帮助厂商相对客观地评估模型的质量和性能,比较不同模型的性能和差异。更重要的是标准化的评估方法和数据集能够为开发者提供很好的方向,促进模型迭代速度。
此前,IDC 发布的大模型评测标准,从三个维度(产品能力、应用能力和生态能力)、6 个一级指标和 11 个二级指标来评估中国大模型的能力。
superCLUE 评测框架
框架介绍
中文通用大模型基准SuperCLUE是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:
在当前通用大模型大力发展的背景下,中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、“相较于国际上的代表性模型做到了什么程度”、 “这些模型与人类的效果对比如何”。它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。中文大模型评测标准化很难,具体测评基准可参考:
通用评测基准数据集
评测维度
SuperCLUE 从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
SuperCLUE总排行榜(2024年10月)
SuperCLUE-Industry: 中文原生工业大模型测评基准
JioNLP 大语言模型 LLM 评测
https://github.com/dongrixinyu/JioNLP
https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86
另一种比较火的评测标准是 JioNLP,该评测是由中国科学院计算技术研究所自然语言处理与社会人文计算实验室(简称“计算所 NLP”)开发和维护的。
背景
当前 LLM 发展迅速,各个公司和研究机构都相继推出了自研的通用 LLM 模型,宣传稿中都自称自研的 LLM 模型性能优越,超越同类竞品,对标 ChatGPT。
为了帮助大家客观判断每一家公司或机构 LLM 模型的效果,特制定本数据集(jionlp-LLM-test-1.0),用于评测各个自研 LLM 的效果。
评测数据集简介
• jionlp LLM 评测数据集主要用于评测通用 LLM 的效果评价。
• 着眼点:考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。
• 题型介绍:选择题来源于中国大陆国内各种专业性考试,重点在于考察模型对客观知识的覆盖面,占比 32%;主观题来源于日常总结,主要考察用户对 LLM 常用功能的效果。
评分规则
• 客观选择题每题一分
• 主观题每道 5 分,
5 分满分要求模型反馈答案正确,可使用,不需要或极少需要用户做人工调整和修改。
4 分,要求模型反馈答案基本正确,经过一些人工修改和挑战,结果可用。
3 分,模型表达内容大致方向正确,需要经过较多人工修复。
2 分,模型反馈答案一般,语言表达通顺,符合语言模型标准,逻辑有少量问题。
1 分,答非所问,语言表达大致通顺,逻辑有问题。
0 分,答非所问,语言不通。
• 翻译题每道 4 分,
4 分,要求翻译精准,特定词汇准确。
3 分,有个别字、词汇错误;
2 分,有一些句子不正确;
1 分,大面积错误;
0 分,无法阅读。
测试结果
以下测试模型结果均为上半年版本,与最新模型存在差异,(只是举例说明,望悉知!)
与 superCLUE 对比
从 JioNLP 评测的结果来看:文心一言的得分高于星火大模型。这背后的原因是两种评测的方法的设置有很大的差异性。SuperCLUE 是只通过选择题对模型能力进行测试,而 JioNLP 采用的是客观选择题+主观题(生成题、翻译题和聊天题)进行测试。
如:对 SuperCLUE 评测方法如何限定测试题目数量,生成和创作类评测用选择题测试是否合理,以及建议 SuperCLUE 像中文 Alpaca 一样适度公开评测说明和标准。JioNLP 也同样存在测试精度、样本量小等问题。
常用的机器学习模型评估标准有 7 个比较重要的方向:
包括准确度(针对分类能力)
精确度和召回率(模型正确预测的内容占该样本的比例)
对抗攻击鲁棒性(模型在受到输入干扰时保持稳定的能力)
计算效率
均方误差
R 方值
数据隐私
从当下来看,SuperCLUE 的评测方式单一性确实存在一定的弊端,但是该模型采用的人工评价的精度也曾被市场认可确实在精度和灵活度上面高于系统的自动评价方法。
C-Eval 大模型评估套件
C-Eval是一个针对大语言模型的中文评估套件,包含初中、高中、大学和专业四个难度级别的多项选择题,覆盖52个学科。旨在测试模型的高级能力,如推理和解题。文章指出,尽管有英文评估基准,但建立全面的中文基准至关重要。实验显示,GPT-4在C-Eval上表现出色,而CoT提示在某些情况下能提升模型性能,但在C-Eval中并非总是有益的。
C-Eval概览
不同颜色代表不同的难度级别:初中、高中、大学、专业
C-Eval的数据统计和例子
C-Eval评估配件
- 设计原则
概述:不同的LLM在简单场景(如简单聊天)下的表现可能是差不多的,真正体现不同模型之间差距的应该是比较复杂的任务场景,因此需要构建一个复杂全面的评估基准C-Eval。
尝试减轻数据污染:一些国家考试题(如高考)的试题在网络上是极其容易获取的,因此在大模型爬取互联网数据训练的时候,这些数据可能已经被纳入到训练数据中,容易造成数据污染。因此在构建评估集时没有直接使用结构化的数据,而是使用PDF或者Microsoft Word格式的数据进行解析,同时结合人工的标注,并将部分数据转化成Latex的格式,目的就是为了防止数据污染。
- 数据收集
科目选择:初中、高中、大学、专业四个级别。包含中国初高中水平的标准科目,大学阶段从中国教育部列出的13个专业类别中选择了25个代表性科目,每个类别至少包含一门,保证全面性。专业级别从中国官方的职业资格目录选择12个代表性的职业。还将这些科目按其主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文学科和其他领域。
数据来源:主要是互联网上提供的免费的模拟考试题,学生共享的中国顶级大学的历年考试题,和从维普网站获取授权的非免费的研究生入学考试模拟题。
数据处理:数据的主要格式为PDF、Microsoft Word和一小部分的网页。PDF用OCR处理成文本,不能解析的人工处理,对于带有复杂数学符号的问题处理为Latex格式。C-Eval中所有问题都处理成带有四个选项的选择题。为每个主题都至少收集200个问题,并划分成开发集、验证集和测试集,用来作为后续Few-shot需要和CoT微调模型需要。
解释数据生成:思维链(CoT)数据生成:用GPT4一步一步生成推理,并人工标注。
C-Eval Hard
这个评估集是从C-Eval中挑选的八个具有挑战性的数学、物理和化学科目。包括:高等数学、离散数学、概率和统计、大学化学、大学物理、高中数学、高中化学和高中物理。这些科目通常涉及复杂的LATEX方程,需要用非显然的推理过程解决,例子如下:
评估
使用准确性作为衡量标准。开发集和验证集的标签公布,但测试集的标签不会公布,为了防止训练LLM时将该部分数据混入预训练数据,保证公平性。用户只需要将模型预测提交到https://cevalbenchmark.com
网站自动生成分数。
实验
- 设置
少样本评估:为了更好地看到模型的潜在能力,在C-Eval上采用five-shot的方式进行测试,其中five-shot的样本从开发集中抽取。
提示:同时在C-Eval上进行answer-only (AO) 和 chain-of-thought (COT) 设置的评估。在某些例子上,CoT的方式会超出LLM的最大长度,采取动态减少例子的方式。其中,answer-only形式:
CoT形式:
结果
一般结果
所有模型在C-Eval各个类别上的分数如下:five-shot answer-only:
five-shot CoT:
从结果来看,在所有模型中,只有GPT-4的分数超过了60%,并且领先第二名的ChatGPT 14%。50B参数量以下的模型最多只比随机基线好上10%不到,与较大模型存在较大差距。这与最近10B模型经过微调效果可与ChatGPT接近的说法相悖,我们认为,小模型经过微调后可能在简单的任务上表现更好,但是在更复杂的任务上,它们的高级固有能力明显落后。
CoT是否有帮助?
本文在CoT和AO条件下都进行了对比,实验结果表明,几乎所有模型在CoT提示下的结果都跟AO差不多或者更低,证明CoT提示在C-Eval评估基准上并不必要,主要可能有几点原因:(1)C-Eval中的很多科目都不是推理密集型的,多余的推理步骤会损害模型的性能;(2)一些模型不能够利用CoT提示的好处,特别是那些没有经过CoT微调的模型。令人鼓舞地,CoT提示让一些模型在部分科目上产生了较大的提升,例如GPT4在大学物理科目上从50.6%提升到60.2%,在概率统计科目上从53.6%提升到62.0% ;ChatGLM在中学物理上从20.2%提升到41.0%,在高中地理上从29.2%提升到38.2%。
英文模型和中文模型的区别
这里对比了MiniMax和ChatGPT,之所以不对比GPT4是因为GPT4跟其他模型不在一个水平上,不具有对比意义。ChatGPT比MiniMax平均好上5.4%,MiniMax在中文知识科目上表现好于ChatGPT,例如毛泽东思想、艺术学、汉语言文学等,这也证明了往ChatGPT这类模型中增加中文知识的必要性;在STEM分类上ChatGPT明显优于MiniMax(12.3%),这证明二者的差距比平均上看的大得多。
C-Eval Hard的结果
GPT4只能取得54.9%的分数,这意味了C-Eval Hard的难度,在CoT提示下,GPT4的成绩略有提升。对比最明显的是MiniMax,在C-Eval Hard上只有25.0%的成绩,跟随机基线差不多,落后于ChatGPT 14.1%。在这些模型中只有GPT-4, ChatGPT和Claude取得有意义的成绩(高于随机10%)。
验证集的结果
模型在验证拆分集上的结果排名与测试集基本类似,因此开发者可以借助在验证集上的结果评估模型的性能。
榜单展示(25年1月截图)
司南评测OpenCompass
非常优质的评测网站,建议点击链接直接官网学习!
huggingface 大模型评测
Hugging Face 旨在展示和比较不同大型语言模型(LLMs)的性能,特别是那些可以公开访问的模型。模型将根据一系列标准进行评估,包括但不限于准确性、效率、可解释性和公平性。在 6 个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成语言模型。
https://huggingface.co/open-llm-leaderboard
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
垂直领域模型评测
测评内容与测评方法
测评内容
近半年来,大模型技术快速迭代发展,代码生成应用逐渐增多,多模态技术成效日渐凸显。为此,本次测评在前期评测体系基础上新增三类工业通用应用测评场景,包括代码生成、图生文、文生图等多模态能力。
测评方法
为了更贴合应用场景实际,进一步评价模型的多维能力,本期测评题型以问答题为主;为保障判分的一致性与准确度,问答题的评分方式由人工判分改为大模型判分,按步骤赋分。
测评结果
综合排名
◆ 综合能力上,GPT-4o和近期发布的Claude-3.5处于领先地位,国内大模型紧随其后;
◆ 2024年上半年国内发布的多个模型综合能力接近GPT-4o,如通义千问-2.5、混元-Pro、百川-4、Alnno、DeepSeek-V2等;
◆ 国外大模型中,GPT-4o和Claude与其他国际大模型,如Mistral-Large、Llama3相比领先优势明显。
能力对比与变化趋势
◆ 国内大模型在工业知识问答领域领先幅度较大,在数据分析、工程建模等领域能力接近;
◆ 国外大模型在代码理解、代码生成和智能安监等领域具有一定优势;
◆ 对比往期测评,2024年上半年国内大模型能力提升明显(以GPT3.5为基准)。
场景测评
场景测评一: 代码生成
测评内容:
代码生成指大模型编写代码能力,包括基础编程、科学计算、数据结构、实用算法、代码推理等细分领域,判分时使用测试用例来判断代码生成准确度。测试中生成10组代码,其中一组完成全部测试样例为通过。
题目样例
问题示例:
编写python代码实现进销存推演。forecast 是一个列表,存储了销量的预测值,in_come 是在途库存,就是未来要进入仓库的库存。返回一个列表,存储了每天的期末库存量。
注意:1. 当天库存不足时,出货量为当天库存量
from typing import List
def deduction(initial_inv: int, forecast: List, in_come: List):
评分标准:
生成10组代码,一组全部通过如下测试样例得1分,否则不得分:
assert deduction(5, [1, 2, 3], [1, 0, 1]) == [5, 3, 1]
assert deduction(15, [3, 2, 1, 6, 8, 9], [0, 0, 10, 0, 0, 9]) == [12, 10, 19, 13, 5, 5]
assert deduction(10, [1, 2, 3], [5, 0, 0]) == [14, 12, 9]
assert deduction(0, [1, 2, 3], [0, 0, 0]) == [0, 0, 0]
assert deduction(25, [1, 2, 3, 1, 1, 1] , [0, 0, 0, 0, 20, 0, 0]) == 24, 22, 19, 18, 3…
本场景测评发现
◆ 代码生成领域,国际大模型处于领先地位,国内模型中,豆包-Pro、混元-Pro等表现优秀,但仍有差距;
◆ 国内外大模型面向工程实际的代码能力整体处于较低水平,尤其是对于实用算法、科学计算和数据结构等领域能力偏弱。**
场景测评二: 智能安监
测评内容
多模态大模型智能安监场景主要包括:防护装备监测、行为监测、事故监测、区域安全监测、危险车辆监测等细分场景,测试方法以判断形式为主,采用均衡的正负样本数量进行测试。
题目样例
问题示例:
这是一张作业现场的视频截图,你要做的是:1.描述图片中的内容。2.判断图中是否有人员倒地的情况。
评分标准:
(1)判断正确得1分,否则不得分;
(2)图片场景描述不准确不得分;
本次评测发现
◆ 多模态大模型在智能安监场景的应用能力相对成熟,综合能力为83,最优模型综合能力超90;
◆ 国外头部大模型在防护装备、区域监测等细分场景具有领先优势,国内更侧重车辆监测、人员行为识别。
场景测评三: 工业原型设计
大模型在工业原型设计场景的任务主要是进行外观和结构的设计,测评主要考察其根据提示词生成图片的一致性,测试时通过人工评估方式,按照图片对提示词要求的符合程度进行打分。
题目样例
问题示例:
输出一个轿车的设计图,必须符合以下要求:
1.整体要求:
(1)主体:只有轿车,没有其他物品;
(2)风格:风格要求为写实的风格;
2.局部要求:
(1)形状:1.车身为流线型2.车辆大灯为泪滴形。
(2)数量:一辆
(3)结构:车辆具有尾翼,只有两个座位
(4)材料:金属
(5)颜色:1.车辆车身为蓝色,车漆呈现金属质感2.车窗为黑色
(6)布局:1.尾翼位于汽车尾部2.车身表面有条状橙色条纹装饰
(7)功能:车辆为电动车,因此车辆前端没有进气孔,也没有排气孔
(8)状态:1.轿车本身停在宽阔的公路中央2.车窗均关闭
评分标准:
(1)生成的图片每满足要求得1分,满分为10分
(2)各项要求中,有两个小点的,每满足一个小点得0.5分
评测发现
◆ 在工业原型设计文生图领域,GPT-4o(Dalle·E)处于领先地位,对比其他模型具有显著优势;
◆ 国内大模型文生图能力与国际水平具有一定差距,在主体一致性、状态一致性、风格一致性上差距较大;
◆ 在工业品状态、功能、布局等空间感知能力要求高的领域,国内外大模型表现均有待提升。
场景测评四:工业知识问答
题目样例
问题示例:
你知道哪些常用逻辑电平? TTL与CMOS电平可以直接互连吗?
评分标准:
(1) 常用逻辑电平包括:12V,5V,3.3V。(1分,给出标准中同样或近似的回答则得1分,否则不得分。)
(2) TTL和CMOS电平是否可以直接互连:不可以直接互连。(1分,给出标准中同样或近似的回答则得1分,否则不得分。)
(3) TTL和CMOS电平互连的条件:CMOS输出可以直接接到TTL,而TTL接到CMOS需要在输出端口加一上拉电阻接到5V或者12V。(1分)
本题共3小项,每个小项1分,满分3分。对于每个小项,如果描述有差距,或者详细程度不足,酌情给0.3或者0.5分或者0.8分。
工业知识问答测评结果
工业知识问答行业能力对比
评测发现
◆ 在知识问答领域国内大模型已具备一定优势,通义千问、DeepSeek等多个大模型实现对GPT-4o超越;
◆ 国内大模型在建材、采矿、石化化工等行业具有显著优势,在钢铁等行业与国际水平接近;
◆ 对比不同行业,国内外大模型在电子设备制造、钢铁等行业有较好的知识储备,对于纺织、装备制造等行业仍需加强训练。
场景测评五:工程建模
题目样例
问题示例:
某公司在2018年年初预订x万产量的目标,2018年6月已完成计划的60%,此后按照上半年月均产量生产,则2018年超出计划产量300万。那么该公司2018年年初预订的产量为多少万元?
评分标准:
1. 如果能正确列出完成计划的60%即为 0.6 x 0.6x 0.6x 万的关系,得1分;
2. 如果能正确列出下半年产量也为 0.6 x 0.6x 0.6x 万的关系,得1分;
3. 如果能正确列出并解方程 0.6 x + 0.6 x − x = 300 0.6x + 0.6x - x = 300 0.6x+0.6x−x=300,得1分;
4. 如果能正确解出 x = 1500 x=1500 x=1500,得1分;
本题共四个得分点,满分为4分,得分情况为(得分/满分)。
本次评测发现
◆ 在工程建模领域,腾讯混元和GPT-4o处于领先地位,对比其他模型具有显著优势;
◆ 国内外大模型建模能力整体处于较低水平,存在较高建模或计算出错的可能性。
场景测评六:业务背景
**用户聊天
评测方法
主客观评价
评测方案分客观和主观两部分进行,其中客观部分是针对 TT 语音场景中常用的 50 个问题进行提问,内容涉及常规高频次易异常部分,通过整理问答对输出诸如 A,B,A, B 等形式文案,结合 gpt 4.0 评价服务进行客观打分**(具体方法参考);主客观评价具体操作流程如下:
ABtest 人设综合评价
一、人设样本量修正
由于 10 月 15 日前召回机器人时随机抽取逻辑失效,触发机器人的人设总是集中在某部分人设上,导致人设触发用户数差异较大,而评价体系的客观性需样本量较为均衡,或各人设方差较小进行评估。
因此需要用贝叶斯平均修正样本量不均衡问题。
二、人设评分标准
另外也结合 ABtest 对人设效果进行线上综合评测,衡量人设的维度包括上面提到的uv,的占比,机器人聊天率以外还关注单个人设对用户的*效果,综合以上四个指标进行评分,来对人设的长期效果进行客观评价,以便有的放矢的优化,扩充或者淘汰;具体方案是利用线性加权方法:
a. 衡量维度分别定义为 x1(*),x2(占比),x3(率),x4(用户),x5(整体);
b. 统一量纲,对齐理解。如**越低越好,理应 1-x1, **率越低越好,理应 1-x3;
c. 凭经验先给一组权系数,例如[0.2, 0.2, 0.1, 0.4, 0.1]【通过数据分析暂定】
d. Score = 0.2*(1-x1)+ 0.2x2+ 0.1(1-x3)+ 0.4x4+ 0.1x5
e. 最终通过对比 7 天所有人设的期望和均方差来进行判断,期望越高效果越好,均方差越小效果越好;
f. 以此进行人设效果周期评价来衡量迭代优化效果;
评测结论举例
测试报告
因涉及部分敏感数据,故省略;
实际数据
各指标采用贝叶斯平均修正后,再根据系数计算【综合得分】:
人设最终评分
根据周期内【综合得分】平均值,周期内【综合得分】方差,最终计算出【最终得分】: