〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活〕
排行榜地址:www.SuperCLUEai.com
0. 前言简介
随着人工智能技术的飞速发展,大模型的多模态实时交互能力已成为新的研究热点。例如,
- OpenAI 在春季发布会中介绍了具备多模态实时交互能力的 ChatGPT-4o;
- 法国 AI 实验室 Kyutai 发布了实时原生多模态模型 Moshi;
- 商汤科技在 WAIC 2024 发布了国内首个具备流式原生多模态交互能力的大模型「日日新 SenseNova 5.5」。
考虑到未来国内将会涌现出大量具备实时交互能力的大模型,我们基于 SuperCLUE 中文综合性基准的积累,推出了 SuperCLUE-o,旨在专注于对中文原生多模态交互能力大模型的评估。
1. 特点
1.1 全新的评价标准体系
SuperCLUE-o的评分基准与以往主要关注模型回答质量的标准不同,本次推出的基准不仅重视回答质量,还特别关注回复的即时性。在各测评任务中,评分标准将从回答质量和响应延迟两个维度进行评估。最终的测评结果将同时展示这两个维度的表现。展示形式如下:
1.2 灵活的榜单呈现方式
SuperCLUE-o充分考虑到当前原生多模态实时交互模型的发展仍不成熟。在前期测评中,我们将基于以往的评测经验,以等级形式公示参评模型的结果,等级的划分依据以国际一流模型的表现为基准进行划分,而不采用排行榜或具体得分的方式进行公示。随着该领域的发展和更多原生多模态实时交互大模型的涌现,我们将在未来公布各模型的排名情况。
等级定义见下表:
榜单公示形式如下:
1.3 中文原生多模态实时交互能力评估
SuperCLUE-o是为中文环境量身定做的,立足于为通用人工智能时代提供中文世界基础评测的设施,文字输入或prompt提示词都是中文原生的,不是英文或其翻译版本;并充分考虑国内多模态领域行业特点与应用场景,从国内多模态领域实际问题出发,致力于打造适合中国语义环境的多模态实时交互测评指标。
1.4 综合理解与分析推理能力
该基准专注于评估大模型的基于理解的综合能力,可同时考察识别、理解、分析和推理能力。
1.5 开放式多轮交互
更好反应真实交互场景,通过多轮对话考察模型理解、回应和推理的能力。
2. 测评任务
2.1 实时交互基础
(1)实物识别能力:该该任务旨在评估大模型基于用户通过摄像头提供的视觉信息,来回答关于用户指定实物内容的能力。
(2)情绪理解与表达能力:该任务旨在评估大模型根据用户指定的情绪和语音语调来回答问题的能力。
(3)角色扮演:该任务旨在评估大模型根据用户指定的角色信息,模仿或扮演该角色特征来回答用户问题的能力。
(4)实时翻译能力:该任务旨在评估大模型将一种语言的内容实时翻译成另一种语言的能力。
(5)基础对话能力:该任务旨在评估大模型在一些日常话题上的实时互动表现能力。
(6)联网搜索能力:该任务旨在评估大模型是否具备联网功能,能够通过检索网络内容为用户提供更为实时的信息。