智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

本文链接：https://blog.csdn.net/u012744245/article/details/144957564

近日，智源研究院发布了下半年大模型综合评测结果，涵盖了开源闭源100+模型，横跨文本、语音、图像和视频等多个领域。

本次评测依托智源研究院自2023年6月上线的大模型评测平台 FlagEval，经过数次迭代，目前已覆盖全球 800 多个开闭源模型，包含 20 多种任务，90 多个评测数据集，超 200 万条评测题目。

智源评测发现：

2024 年下半年大模型发展更聚焦综合能力提升与实际应用。
多模态模型发展迅速，涌现了不少新的厂商与新模型，语言模型发展相对放缓。
模型开源生态中，除了持续坚定开源的海内外机构，还出现了新的开源贡献者。

PART01 多种模态评测综合榜单

01 语言模型 Language Model

语言模型，针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务的表现，国内头部语言模型仍然与国际一流水平存在显著差距。

语言模型主观评测（重点考察模型中文能力），结果显示：

1. 第一名：字节跳动 Doubao-pro-32k-preview

2. 第二名：百度 ERNIE 4.0 Turbo

3. 第三名：OpenAI o1-preview-2024-09-12

4. 第四名：Anthropic Claude-3-5-sonnet-20241022

5. 第五名：阿里巴巴 Qwen-Max-0919

语言模型客观评测，结果显示：

1. 第一名：OpenAI o1-mini-2024-09-12

2. 第二名：Google Gemini-1.5-pro-latest

3. 第三名：阿里巴巴 Qwen-max-0919

4. 第四名：字节跳动 Doubao-pro-32k-preview

5. 第五名：Meta Llama-3.3-70B-Instruct

02 视觉语言多模态模型 Vision-Language Model

视觉语言多模态模型，虽然开源模型架构趋同（语言塔 + 视觉塔），但表现不一，其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距，而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。

视觉语言模型评测，结果显示：

penAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022，阿里巴巴开源的 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。

03 多模态生成模型 Multimodal Generative Model

多模态生成模型指模型能够接受文本、图片等不同模态的信息，并生成不同视觉模态的内容。本轮评测选取较为成熟的“文本-图像”生成和“文本-视频”生成模型进行测评。

文生图多模态模型，今年上半年参评的模型普遍无法生成正确的中文文字，但此次参评的头部模型已经具备中文文字生成能力，但整体普遍存在复杂场景人物变形的情况，针对常识或知识性推理任务，小于3的数量关系任务表现有所提升，大于3的数量关系依然无法处理，涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。

文生图多模态模型评测，结果显示：腾讯Hunyuan Image位列第一，字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三，OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型，画质进一步提升，动态性更强，镜头语言更丰富，专场更流畅，但普遍存在大幅度动作变形，无法理解物理规律，物体消失、闪现、穿模的情况。

文生视频多模态模型评测，结果显示：快手可灵1.5（高品质）、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。