FlagEval“百模”评测是由智源研究院推出的一项大规模人工智能模型评测活动,旨在全面评估全球范围内的大模型能力。该评测依托于自2023年6月上线的FlagEval平台,经过多次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务、90多个评测数据集和超过200万条评测题目。
此次“百模”评测涵盖了文本、语音、图片、视频等多种模态,评测范围包括国内外100余个大模型。评测内容不仅涉及基础的语言理解与生成能力,还扩展到多模态图文理解、文生图、文生视频等任务。此外,评测还新增了面向真实金融量化交易场景的应用能力评估,测量大模型在收益优化和性能优化等方面的表现。
在评测方法上,FlagEval采用了“能力—任务—指标”三维评测框架,细粒度刻画基础模型的认知能力边界,并通过可视化的方式呈现评测结果。该框架包括30多种能力、5种任务和4大类指标,总计600多个评测维度。同时,FlagEval还引入了动态评测与多任务能力评估体系,以感知大模型的发展趋势。
值得注意的是,FlagEval不仅关注模型的客观性能,还探索了基于AI的辅助评测模型(如FlagJudge)和多模态评测框架(如FlagEvalMM),以提升评测的灵活性和适应性。此外,平台还支持用户自定义在线或离线盲测,提供丰富的评测工具和服务。
此次“百模”评测揭示了当前大模型在多模态发展和实际应用中的潜力与挑战,为未来智能技术的发展提供了重要参考。同时,它也为行业参与者指明了发展方向,并推动了技术创新。
FlagEval“百模”评测中使用的“能力—任务—指标”三维评测框架的具体内容和实施细节如下:
-
能力框架:
- 基础语言能力:包括简单理解(如信息分析、提取概括、判别评价等)、知识运用(如知识问答、常识问答、事实问答)和推理能力(如知识推理、符号推理)。
- 高级语言能力:涵盖特殊生成(如创意生成、代码生成、风格生成、修改润色等)、语境理解(如语言解析、情境适应、观点辨析等)。
- 安全与价值观:涉及违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验等方面的安全问题,以及歧视偏见、心理健康、文明礼貌、伦理道德等方面的价值观问题。
- 综合能力:包括通用综合能力和领域综合能力。
-
任务框架:
- 通过“任务”与“能力”解耦,每个任务对应多样化的能力,并通过多样化的数据集来评定。目前包含22个主观&客观评测集,共84,433道评测题目。这些数据集包括知名的公开数据集如HellaSwag、MMLU