国产Sora,即视频大模型Vidu,是由清华大学和大模型创业公司生数科技联合发布的一款具有创新性的技术产品。它基于自研的U-ViT架构,可以一键生成长度达16秒、分辨率为1080P的高清视频内容,具有多镜头语言、时空一致性等出色表现,甚至能虚构超现实主义画面。
1、Vidu的特点
模拟真实物理世界:Vidu能够生成复杂且细腻的场景,遵循真实的物理规律,如精确的光影效果、生动的人物表情等。
富有想象力:Vidu能够生成超越现实世界的虚构画面,这种超现实创作的能力,使得Vidu能够满足富有创意的视频需求,为影视制作、广告设计等行业提供强大的技术支持。
多镜头语言:Vidu能够自如地生成并切换多种镜头视角,包括长镜头、追焦、转场等专业级效果。
出色的视频时长:Vidu生成的视频时长可以达到16秒,这在视频大模型中是非常罕见的,而且做到了画面连续流畅,且有细节、逻辑连贯。
时空一致性:Vidu在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。
理解中国元素:Vidu生成特有的中国元素,这使其在理解和表达中国的文化特色上有独特优势。
2、Vidu与Sora的比较
Vidu和Sora都是先进的AI视频生成模型,它们在技术上有相似之处,但也存在一些差异。
2.1技术架构
Vidu采用的是生数科技原创的Diffusion与Transformer融合的架构U-ViT,能够根据文本描述生成长达16秒、1080P分辨率的高清视频内容18。
Sora则采用了Diffusion加Transformer架构,称为DiT,同样能够生成高质量的视频内容,最大时长可达到1分钟49。
2.2视频生成能力
Vidu支持一键生成长达16秒的视频,而Sora的最大时长为1分钟。
两者都能模拟真实物理世界,生成复杂、细节丰富的场景,并且具有富有想象力的画面生成能力。
2.3技术挑战与优化
Vidu在两个月内实现了显著的性能提升,从8秒的视频生成突破到16秒。
Sora则在发布时已经具备较长视频生成的能力。
2.4多模态能力
Vidu的架构支持多模态能力,未来可能兼容更广泛的应用。
Sora的具体多模态能力未在搜索结果中详细说明。
2.5文化元素理解
Vidu能够理解并生成富有中国文化特色的形象,如熊猫和龙。
2.6性能对比
有报道指出Vidu在视频生成的一致性、运动幅度上达到了Sora水准,尽管时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。
2.7未来展望
Vidu目前正在加速迭代提升,未来可能在性能上追平Sora
生数科技简介
生数科技是一家成立于2023年的创业公司,其核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。公司的CEO是本硕就读于清华大学计算机系的唐家渝,首席科学家由清华人工智能研究院副院长朱军担任,CTO鲍凡是清华大学计算机系博士生、朱军教授课题组的成员,长期关注扩散模型领域研究。
生数科技的主要产品是一个名为Vidu的视频大模型,它可以一键生成长度达16秒、分辨率为1080P的高清视频内容。Vidu模型采用了团队原创的Diffusion与Transformer融合的架构U-ViT。
此外,生数科技也在多模态大模型领域有较深的积累,是目前多模态大模型赛道估值最高的初创公司之一。公司的创业方向为多模态通用大模型和应用产品的研发。
生数科技在成立之初就已经获得了三轮融资。2023年6月,完成近亿元人民币天使轮融资,投资方包括蚂蚁集团、BV百度风投、卓源亚洲、卓源资本;2023年8月,完成数千万人民币天使+轮融资,投资方为锦秋基金;2024年3月,完成数亿元人民币A轮融资,投资方包括启明创投、达泰资本、智谱AI等新机构,以及BV百度风投、卓源亚洲两个老股东。