Sora最新测评结果出炉,表现不及国内头部模型,指令遵循不符预期

本测评结果仅用于学术研究。

12月9日,OpenAI正式推出视频产品Sora。用户可以创建任意长宽比例的分辨率高达 1080p(最长 20 秒)的视频,可接收文本、图像和视频输入并生成新视频作为输出。

outside_default.png

官方为Sora产品设计了全新UI,并介绍了新功能:Remix(重混)、Re-cut(重新剪辑)、Storyboard(故事板)、Loop(循环)、Blend(混合)以及Style presets(风格预设)等。

e681538e1f95da04441e4d44845a53dc.png

体验地址:https://sora.com/

针对公众关注的Sora,在中文场景下的文生视频的性能问题,专业第三方测评机构SuperCLUE对Sora进行了评估。

测评环境

参考标准:SuperCLUE-T2V中文文生视频测评基准

评测模型:Sora(网页端)

测评环境:使用ChatGPT Plus账户,视频分辨率720p、时长为 5 秒

评测集:SuperCLUE-T2V中文大模型文生视频评测集。不仅关注模型的视频画质,还重点考察其文本理解与遵循能力。测评内容涵盖了视频画质、外观遵循能力、动态遵循能力等基础与技术性的考核,以及不同应用场景下的视频质量,全面检验模型在不同应用场景任务中的表现。

测评方法我们采取了超级模型评估+人工评估的测评方法。我们将七个评判难度较高的二级任务通过人工进行评估,其余任务根据设定的评估流程、评价标准和打分规则(1-10分),裁判模型对候选模型的答案进行评估。文生视频设定的评价标准包括:清晰度、动作自然性、主体外观准确性等。

37e8fcd6bc1a3a7f0ba90787dbddd2f3.png

先说结论

结论1:与国内头部大模型(国内前三)相比,Sora在基础技术和应用场景上得分平均落后5分,应用场景相差7分。总体来看,国内大模型仍保持领先水平。

结论2: Sora在外观遵循能力方面表现突出,得分排行第二,但在视频画质和动态遵循能力上仍有一定提升空间。

结论3:在实际使用的过程中,我们发现存在指令遵循率低的问题(题目占比10%),即生成的视频内容与提示词的描述完全不符的现象。

测评结果

8e0d48215b67b3764def1efbf733c930.png

对比分析

e8640525471ab3e7c1fe808b223502d3.png

1abeba851e809e640abde1520be68f7b.png

df2c1e17aaca6381ae36a43253cc04c6.png

示例对比

【示例1】:外观遵循能力-空间关系

提示词Prompt:书桌上摆放着一盏台灯,台灯的左边是一摞书,右边是一个笔筒。

【Sora】:9.25分

outside_default.png


【示例2】:日常生活-职场

提示词Prompt:在高科技实验室,研究人员身穿白色实验服,认真操作精密仪器。墙上挂着复杂的化学反应图,桌上堆放着实验记录。

【Sora】:9.4分

outside_default.png

【示例3】:动态遵循能力-主体交互准确性

提示词Prompt:一位母亲正在给孩子喂饭,孩子坐在餐椅上,母亲拿着勺子,耐心地一口一口地喂孩子吃饭。

模型对比回答(满分10分):

PixverseV3】:9.4分

c2207b8b7c4e0391524ccd7f3efd1117.gif

可灵AI】:7.9分

outside_default.png

【Sora】:5.75分

outside_default.png

【示例4】:影视-动漫

提示词Prompt:视频风格设定为动漫风格。霓虹灯闪烁的城市中,摩天大楼拔地而起,街道上车辆穿梭不息,一个身披黑色斗篷的神秘人物在屋顶间跳跃。

模型对比回答(满分10分):

海螺AI】:7.6分

outside_default.png

【Sora】:5.42分

outside_default.png


【Sora指令不遵循示例】

【示例5】:外观遵循能力-数量精确性

提示词Prompt:花瓶里插着五朵玫瑰花,其中三朵是红色的,两朵是白色的。花瓶旁边放着两本书。

【Sora】:

b3919ec09bec8a35dc166b5be1fd200f.gif

【示例6】:中国文化场景-中华饮食

提示词Prompt:一位小女孩轻轻夹起一个小笼包,咬上一口,鲜美的汤汁流入口中。

【Sora】:

outside_default.png

# 加入社群

更多详细最新大模型测评详情,可加入交流群。

90d53e37aad1ff601f16655de957924d.png

# 联系我们

文生视频测评申请方式:

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。

邮箱: contact@superclue.ai,标题是:SuperCLUE文生视频测评申请

outside_default.png

扩展阅读

outside_default.png

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

264cdff9deb8ca589a80a1f55faab449.gif   点击阅读原文,查看SuperCLUE排行

内容概要:本文《2025年全球AI Coding市场洞察研究报告》由亿欧智库发布,深入分析了AI编程工具的市场现状和发展趋势。报告指出,AI编程工具在2024年进入爆发式增长阶段,成为软件开发领域的重要趋势。AI编程工具不仅简化了代码生成、调试到项目构建等环节,还推动编程方式从人工编码向“人机协同”模式转变。报告详细评估了主流AI编程工具的表现,探讨了其商业模式、市场潜力及未来发展方向。特别提到AI Agent技术的发展,使得AI编程工具从辅助型向自主型跃迁,提升了任务执行的智能化和全面性。报告还分析了AI编程工具在不同行业和用户群体中的应用,强调了其在提高开发效率、减少重复工作和错误修复方面的显著效果。最后,报告预测2025年AI编程工具将在精准化和垂直化上进一步深化,推动软件开发行业进入“人机共融”的新阶段。 适合人群:具备一定编程基础,尤其是对AI编程工具有兴趣的研发人员、企业开发团队及非技术人员。 使用场景及目标:①了解AI编程工具的市场现状和发展趋势;②评估主流AI编程工具的性能和应用场景;③探索AI编程工具在不同行业中的具体应用,如互联网、金融、游戏等;④掌握AI编程工具的商业模式和盈利空间,为企业决策提供参考。 其他说明:报告基于亿欧智库的专业研究和市场调研,提供了详尽的数据支持和前瞻性洞察。报告不仅适用于技术从业者,也适合企业管理者和政策制定者,帮助他们在技术和商业决策中更好地理解AI编程工具的价值和潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值