近日,智源研究院发布了下半年大模型综合评测结果,涵盖了开源闭源100+模型,横跨文本、语音、图像和视频等多个领域。
本次评测依托智源研究院自2023年6月上线的大模型评测平台 FlagEval,经过数次迭代,目前已覆盖全球 800 多个开闭源模型,包含 20 多种任务,90 多个评测数据集,超 200 万条评测题目。
智源评测发现:
-
2024 年下半年大模型发展更聚焦综合能力提升与实际应用。
-
多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。
-
模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。
PART01 多种模态评测综合榜单
01 语言模型 Language Model
语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。
语言模型主观评测(重点考察模型中文能力),结果显示:
1. 第一名:字节跳动 Doubao-pro-32k-preview
2. 第二名:百度 ERNIE 4.0 Turbo
3. 第三名:OpenAI o1-preview-2024-09-12
4. 第四名:Anthropic Claude-3-5-sonnet-20241022
5. 第五名:阿里巴巴 Qwen-Max-0919
语言模型客观评测,结果显示:
1. 第一名:OpenAI o1-mini-2024-09-12
2. 第二名:Google Gemini-1.5-pro-latest
3. 第三名:阿里巴巴 Qwen-max-0919
4. 第四名:字节跳动 Doubao-pro-32k-preview
5. 第五名:Meta Llama-3.3-70B-Instruct
02 视觉语言多模态模型 Vision-Language Model
视觉语言多模态模型,虽然开源模型架构趋同(语言塔 + 视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。
视觉语言模型评测,结果显示:
penAI GPT-4o-2024-11-20 与字节跳动 Doubao-Pro-Vision-32k-241028 先后领先于 Anthropic Claude-3-5-sonnet-20241022,阿里巴巴开源的 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 紧随其后。
03 多模态生成模型 Multimodal Generative Model
多模态生成模型指模型能够接受文本、图片等不同模态的信息,并生成不同视觉模态的内容。本轮评测选取较为成熟的“文本-图像”生成和“文本-视频”生成模型进行测评。
文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。
文生图多模态模型评测,结果显示:腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。
文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。
文生视频多模态模型评测,结果显示:快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
04 语音语言模型 Speech Language Model
语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。
语音语言模型评测,结果显示:
1. 第一名:阿里巴巴 Qwen2-Audio
2. 第二名:香港中文大学&微软 WavLLM
3. 第三名:清华大学&字节跳动 Salmon
4. 第四名:Nvidia Audio-Flamingo
5. 第五名:MIT & IBM LTU
PART02 四大专项评测榜单
01 K12学科测验榜单
智源研究院再次联合与海淀区教师进修学校新编了K12全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。
本次 K12 学科测验,结果显示:
-
综合得分相较于半年前提升了12.86%,但是仍与海淀学生平均水平存在差距;
-
在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;
-
模型普遍存在“文强理弱”的偏科情况。
02 FlagEval大模型角斗场榜单
FlagEval大模型角斗场,是智源研究院今年9月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval 覆盖国内外约 50 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。
FlagEval大模型角斗场评测,共有 29 个语言模型、16 个图文问答多模态模型、7 个文生图模型、14 个文生视频模型参评。
FlagEval大模型角斗场评测,发现:用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。
03 FlagEval-Debate大模型辩论赛榜单
FlagEval-Debate 大模型辩论赛,是智源研究院今年10月推出的模型对战评测服务FlagEval大模型角斗场的延展平台,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。
FlagEval-Debate 评测,结果显示:Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。
本次 FlagEval-Debate 评测,发现:
-
大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;
-
大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;
-
大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。
04 金融量化榜单
金融量化交易榜单是基于实际应用场景的全新评测方法,通过评测模型的量化代码实现
能力,对模型在金融量化交易领域的潜在的应用落地能力和商业价值进行深入评估。
金融量化交易评测,结果显示:深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。
金融量化交易评测,发现:
-
大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;
-
在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;
-
头部模型能力已接近初级量化交易员的水平。
参考:https://mp.weixin.qq.com/s/jIwMZuIu_QNjjTJhe2GOkA
欢迎各位关注我的微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。