原文链接: 中国首个Sora级视频大模型Vidu发布
4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到 Sora 级别的视频大模型,标志着中国在视频生成技术领域的重要进展。
该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。
这是中国首个具有延长时长、卓越一致性和动态功能的启动视频大型模型,与 Sora 的水平“非常接近”。更值得一提的是,与 Sora 相比,Vidu 能够理解并生成中国元素,如熊猫和龙。
Vidu登场!中国首个Sora级视频大模型发布,能理解中国元素,性能全面对标国际顶尖水平
“在Sora发布后,我们发现刚好和我们的技术路线是高度一致的,这也让我们坚定地进一步推进了自己的研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于对U-ViT 架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性。
更有意义的是,Vidu贴的是“中国制造”的标签,性能全面对标国际顶尖水平,并在加速迭代提升中!感叹我国的强大和科研工作者的努力!