就在昨日(2024年4月27日),北京生数科技有限公司(以下简称“生数科技”)联合清华大学在中关村论坛-未来人工智能先锋论坛上,正式发布中国首个长时长、高一致性、高动态性视频大模型:Vidu。
该模型采用生数科技团队原创的Diffusion与Transformer融合的架构U-ViT。
据发布会介绍,Vidu不仅支持一键生成长达16秒、分辨率高达1080P的高清视频内容,还能够模拟真实物理世界,拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
* 由生数科技发布的Vidu官方展示视频(视频时长01:29)
01
全球首个U-ViT融合架构
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。
* Paper:《All are Worth Words: A ViT Backbone for Diffusion Models》
(https://arxiv.org/abs/2209.12152)
2023年3月,团队开源全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换。在架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。
02
多维度模拟真实世界
除了在时长方面的突破外,Vidu在生成视频的效果方面也有显著提升:
场景真实,符合物理规律:
能够生成复杂细致的场景,同时遵循真实的物理规律,如合理的光影效果以及精细的人物表情等。
拥有丰富的创造力:
可以生成现实世界中不存在的虚构场景,创造出充满深度和复杂性的超现实主义内容。
多镜头语言:
可以生成复杂的动态镜头,包括远景、近景、中景、特写等不同镜头切换,以及长镜头、追焦、转场等效果,为视频增添镜头语言。
一致性高:
在生成的视频中保持高度的连贯和流畅。
对中国特有元素的理解更加准确:
能够生成符合传统印象中的中国元素,例如龙、麒麟、熊猫等。
值得一提的是,Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。
发布会结束后,生数科技向媒体表示:目前正在加速迭代提升,面向未来,Vidu的视频时长会继续突破,且Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
Vidu的命名不仅谐音“Video”,也蕴含“We do”的寓意。
Vidu的问世,不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证,也代表了以生数科技为首的中国企业在多模态原生大模型领域的持续创新能力和领先性。
--- End ---
欢迎关注微软 智汇AI 官方账号
一手资讯抢先了解
喜欢就点击一下 在看 吧