本测评结果仅用于学术研究。
12月9日,OpenAI正式推出视频产品Sora。用户可以创建任意长宽比例的分辨率高达 1080p(最长 20 秒)的视频,可接收文本、图像和视频输入并生成新视频作为输出。
官方为Sora产品设计了全新UI,并介绍了新功能:Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及Style presets(风格预设)等。
体验地址:https://sora.com/
针对公众关注的Sora,在中文场景下的文生视频的性能问题,专业第三方测评机构SuperCLUE对Sora进行了评估。
测评环境
评测模型:Sora(网页端)
测评环境:使用ChatGPT Plus账户,视频分辨率720p、时长为 5 秒
评测集:SuperCLUE-T2V中文大模型文生视频评测集。不仅关注模型的视频画质,还重点考察其文本理解与遵循能力。测评内容涵盖了视频画质、外观遵循能力、动态遵循能力等基础与技术性的考核,以及不同应用场景下的视频质量,全面检验模型在不同应用场景任务中的表现。
测评方法:我们采取了超级模型评估+人工评估的测评方法。我们将七个评判难度较高的二级任务通过人工进行评估,其余任务根据设定的评估流程、评价标准和打分规则(1-10分),裁判模型对候选模型的答案进行评估。文生视频设定的评价标准包括:清晰度、动作自然性、主体外观准确性等。
先说结论
结论1:与国内头部大模型(国内前三)相比,Sora在基础技术和应用场景上得分平均落后5分,应用场景相差7分。总体来看,国内大模型仍保持领先水平。
结论2: Sora在外观遵循能力方面表现突出,得分排行第二,但在视频画质和动态遵循能力上仍有一定提升空间。
结论3:在实际使用的过程中,我们发现存在指令遵循率低的问题(题目占比10%),即生成的视频内容与提示词的描述完全不符的现象。
测评结果
对比分析
示例对比
【示例1】:外观遵循能力-空间关系
提示词Prompt:书桌上摆放着一盏台灯,台灯的左边是一摞书,右边是一个笔筒。
【Sora】:9.25分
【示例2】:日常生活-职场
提示词Prompt:在高科技实验室,研究人员身穿白色实验服,认真操作精密仪器。墙上挂着复杂的化学反应图,桌上堆放着实验记录。
【Sora】:9.4分
【示例3】:动态遵循能力-主体交互准确性
提示词Prompt:一位母亲正在给孩子喂饭,孩子坐在餐椅上,母亲拿着勺子,耐心地一口一口地喂孩子吃饭。
模型对比回答(满分10分):
【PixverseV3】:9.4分
【可灵AI】:7.9分
【Sora】:5.75分
【示例4】:影视-动漫
提示词Prompt:视频风格设定为动漫风格。霓虹灯闪烁的城市中,摩天大楼拔地而起,街道上车辆穿梭不息,一个身披黑色斗篷的神秘人物在屋顶间跳跃。
模型对比回答(满分10分):
【海螺AI】:7.6分
【Sora】:5.42分
【Sora指令不遵循示例】
【示例5】:外观遵循能力-数量精确性
提示词Prompt:花瓶里插着五朵玫瑰花,其中三朵是红色的,两朵是白色的。花瓶旁边放着两本书。
【Sora】:
【示例6】:中国文化场景-中华饮食
提示词Prompt:一位小女孩轻轻夹起一个小笼包,咬上一口,鲜美的汤汁流入口中。
【Sora】:
# 加入社群
更多详细最新大模型测评详情,可加入交流群。
# 联系我们
文生视频测评申请方式:
请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。
邮箱: contact@superclue.ai,标题是:SuperCLUE文生视频测评申请
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
点击阅读原文,查看SuperCLUE排行