智源研究院对全球多款大模型进行评测:智源研究院对超过140个大模型进行评测,下面是重要的评测结果:
- 语言模型结果:语言模型主观评测结果中,字节跳动
豆包Skylark2
、GPT-4
分别位于第一和第二,并且国产大模型更加理解中国用户。另外,第三名到第五名分别是文心一言
、Kimi
和GLM-4
。 - 图文问答结果:图文问答客观评测结果中,通义
Qwen-vl-max
模型和上海人工智能实验室的InternVL-Chat-V1.5
的能力领先于GPT-4
,三个模型分别名列前三。 - 文生图结果:文生图主观评测结果中,位列前五的分别是
DALL-E3
、CogView3
、Meta的Imagine
模型、文心一格
和字节跳动的Doubao-Image
。 - 文生视频结果:文生视频主观评测结果中,排名第一的是
Sora
,中国一家公司的模型PixVerse
排名第三,腾讯的VideoCrafter-V2
模型排名第五。