根据截至2025年2月的公开信息及评测数据,国内外文生视频大模型的性能排名可综合以下榜单及技术进展梳理如下:
### **一、国外文生视频大模型**
1. **OpenAI Sora Turbo**
- **性能特点**:生成视频最长20秒(1080p分辨率),支持多镜头、物理世界模拟,视频连贯性和细节表现远超同类模型。其基于“涌现能力”的生成效果被认为是行业标杆,尤其在复杂场景理解和动态物理规律模拟上具有代际优势。
- **商业化**:通过ChatGPT Pro套餐(200美元/月)提供,用户可生成高分辨率视频。
2. **Runway Gen3**
- **性能特点**:生成时长约4秒,支持视频扩展和拼接,画面精细度较高,但在复杂动作连贯性和物理规律理解上稍逊于Sora。
- **应用场景**:主要用于广告和创意设计,商业化模式成熟。
3. **Pika 1.5**
- **性能特点**:生成视频时长为3-5秒,分辨率较低,但成本较低,适合快速生成短视频。在画面细节(如光影效果)表现较好,但人物连贯性不足。
4. **Luma DreamMachine 1.6**
- **性能特点**:生成视频时长约5秒,支持多角度动态渲染,画面流畅性较高,但物理模拟能力较弱。
5. **Google Phenaki**
- **性能特点**:可生成任意长度视频,但质量较差,真实性不足,尚未公测。
### **二、国内文生视频大模型**
1. **爱诗科技 PixVerse V3**
- **性能特点**:总分82.02(SuperCLUE榜单第一),支持5-8秒视频生成(1080p),多比例适配(16:9、9:16等),采用DiT架构,画面一致性和细节处理优秀。
- **应用场景**:海外市场表现突出,适用于短视频和广告制作。
2. **MiniMax 海螺视频**
- **性能特点**:总分81.5,生成视频时长约10秒,支持复杂场景动态生成,画面细腻度较高,但物理规律理解仍需提升。
3. **字节跳动 Goku**
- **性能特点**:2025年2月最新发布,基于校正流Transformer架构,支持文本/图像生成视频,生成效果真实,适用于广告和电商场景。技术报告显示其在多模态融合和长视频生成(最长15秒)上有突破。
4. **快手 可灵AI 1.5**
- **性能特点**:总分80.92,生成视频时长6-8秒,支持多镜头转场,在短视频领域应用广泛,但动作变形问题仍存在。
5. **生数科技 Vidu**
- **性能特点**:对标Sora,采用U-ViT架构,生成时长4-8秒(1080p),画面连贯性较强,但商业化应用较晚。
6. **阿里云 通义万相**
- **性能特点**:总分78.19,支持文生视频和图生视频,生成时长较短(约5秒),但电商场景适配性较好。
7. **上海人工智能实验室 书生·筑梦**
- **性能特点**:开源模型,可生成分钟级视频,但画质和物理模拟能力与Sora存在差距,适合教育及低复杂度场景。
### **三、综合排名与差距分析**
三、综合排名与差距分析
排名 | 模型名称 | 所属机构 | 关键优势 | 主要短板 |
---|---|---|---|---|
1 | Sora Turbo | OpenAI | 20秒高质视频、物理世界模拟 | 高成本、未完全开放公测 |
2 | PixVerse V3 | 爱诗科技 | 画面一致性、多比例适配 | 生成时长较短 |
3 | 海螺视频 | MiniMax | 复杂场景动态生成 | 物理规律理解不足 |
4 | Goku | 字节跳动 | 多模态融合、长视频生成 | 商业化应用待验证 |
5 | Runway Gen3 | Runway | 精细化画面、成熟商业化 | 生成时长较短 |
### **四、技术趋势与挑战**
1. **技术瓶颈**:
- **生成时长**:国内模型普遍在8秒以内,Sora Turbo已达20秒,差距显著。
- **物理模拟**:Sora的“世界模型”能力(如动态物理规律模拟)尚未被国内模型完全突破。
- **算力需求**:高质量视频生成依赖超算资源,国内企业面临算力稀缺问题。
2. **商业化方向**:
- 广告、电商、影视成为主要应用场景,快手可灵AI、阿里通义万相已实现行业落地。
- 开源模型(如书生·筑梦)推动教育及中小企业应用。
以上排名综合了SuperCLUE、智源研究院等评测数据及技术报告,更多细节可参考来源链接。