通义万相2.1：VBench榜单荣登第一！阿里通义万相最新视频生成模型，支持生成1080P长视频

最新推荐文章于 2025-03-20 16:31:46 发布

蚝油菜花

最新推荐文章于 2025-03-20 16:31:46 发布

阅读量2.2k

点赞数 51

分类专栏：每日 AI 项目与应用实例文章标签：人工智能开源

本文链接：https://blog.csdn.net/qq_19841021/article/details/145084286

版权

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

autotrain-advanced

万相2.1是阿里推出的通义万相升级版本，基于自研的高效VAE和DiT架构，增强时空上下文建模能力，支持无限长1080P视频的高效编解码。首次实现中文文字视频生成功能，并在VBench榜单上荣登第一。

万相2.1能够稳定展现复杂人物运动，逼真还原现实物理规律，一键生成中英文视频特效，具备强大的影视质感与艺术风格转换能力。此外，它还支持文生组图，采用IC-LoRA图像生成训练方法，增强文本到图像的上下文能力，轻松实现关联图像间的组合生成。

VAE架构：变分自编码器（VAE）是生成模型，用编码器将输入数据映射到一个潜在空间，再用解码器将潜在空间的表示映射回数据空间，实现数据的生成和重建。
DiT架构：DiT（Diffusion in Time）架构是基于扩散模型的生成模型，在时间维度上逐步引入噪声，逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构，支持高效编解码和生成高质量的视频。
IC-LoRA：IC-LoRA是一种图像生成训练方法，基于结合图像内容和文本描述，增强文本到图像的上下文能力，让生成的图像更加符合用户的文本描述和期望。
上下文建模：基于增强时空上下文建模能力，更好地理解和生成具有连贯性和一致性的视频内容，让视频中的动作、场景和风格等元素更加自然和协调。