VLM之Wanx:Wanx 2.1(通义万相系列)的简介、安装和使用方法、案例应用之详细攻略
目录
Wanx 2.1的简介
通义万相是阿里云通义旗下的一款AI创意作画平台,提供AI艺术创作服务,支持文生图、图生图、涂鸦作画、虚拟模特、个人写真等多种图片创作模式。
2025年1月8日,Wanx团队发布最新版本Wanx 2.1,该版本在2023年7月发布的基础上进行了重大升级,显著提升了图像和视频生成能力,尤其在视频生成领域取得了突破性进展。Wanx 2.1是阿里云通义万相的多模态大型模型的最新迭代版本。它能够根据文本输入生成高质量的图像和视频。相比之前的版本,Wanx 2.1在以下几个方面实现了显著提升:
>> 更逼真的视觉效果:能够更准确地处理复杂的运动,提高像素质量,遵守物理规则,并增强指令执行的精确度。
>> 复杂运动的精准处理:能够处理大规模的身体运动和复杂的旋转,即使在花样滑冰、游泳和跳水等具有挑战性的场景中也能保持身体协调性和真实的运动轨迹。
>> 支持中英文文字特效:成为首个支持中英文文字特效生成的视频生成模型,满足广告和短视频制作等不同行业的创意需求。
>> 高效的编解码:利用自研的高效VAE和DiT架构,支持无限长1080P视频的高效编解码。
>> 图像生成增强:引入了IC-LoRA图像生成训练方法,结合DiT架构,显著增强了文本到图像的上下文能力,支持文生组图,可以对多张图像进行拼接与联合描述,实现关联图像间的组合生成,并保持特征稳定和连续。
>> 物理规律的精准模拟:能够真实还原碰撞、反弹、切割、挤压等物理规律,提升了画面的逼真度。
通义万相Wanx 2.1凭借其在图像和视频生成方面的显著进步,以及便捷易用的操作方式,为用户提供了强大的AI创作工具,并有望在多个领域带来革新。
1、特点
Wanx 2.1 的主要特点包括:
>> 首破文字生成难题:解决了AI视频生成模型长期以来无法准确生成文字的难题,支持中英文文字特效生成。
>> 复杂运动的精准模拟:能够在多种场景下实现稳定的复杂运动生成,并模拟真实物理规律,避免了动作僵硬或不自然的情况。
>> 强大的运镜能力:能够根据用户的文本指令自动调整镜头角度、距离和移动方式,创造出更具电影感的视频效果。
>> 长文本指令的精准遵循:能够准确理解各种场景切换、角色互动和复杂动作的文本指令,细节还原能力大幅提升。
>> 提供极速版和专业版:极速版注重高效性能,专业版注重卓越表现力,满足不同用户的需求。
2、核心原理
Wanx 2.1 的核心原理在于多维度创新,实现了模型整体性能的全面提升。主要体现在以下几个方面:
>> 高效VAE和DiT架构:自研的高效VAE (变分自编码器) 和DiT (Diffusion Transformer) 架构增强了时空上下文建模能力,提升了视频生成质量和效率。
>> IC-LoRA图像生成训练方法:用于图像生成,结合DiT架构增强文本到图像的上下文能力,支持文生组图功能。
>> Flow Matching训练框架:基于线性噪声轨迹的Flow Matching方案,提升了模型收敛性、生成质量和效率。
>> 时空全注意力机制和参数共享机制:在DiT架构中应用,提升性能并降低训练成本。
>> 百万级序列高效处理:通过分布式、显存优化的训练策略,实现了百万级超长序列的高效训练。
>> 自动化数据构建和模型评估:自动化数据构建管线保证数据质量,自动化度量机制提升模型评估效率。
3、技术解析
Wanx 2.1的技术升级涵盖模型架构、训练方法和评估体系:
>> 模型架构创新:自研高效VAE和DiT架构,增强时空上下文建模能力,采用基于线性噪声轨迹的Flow Matching方案,结合缓存机制和因果卷积实现高效视频编解码。
>> 超长序列训练:结合分布式策略(DP、FSDP、RingAttention、Ulysses混合4D并行训练)和显存优化策略,实现了百万级超长序列的高效训练。
>> 数据构建与模型评估:自动化数据构建管线保证数据质量,自动化度量机制(包含美学评分、运动分析和指令遵循等多个维度)提升模型评估效率,并训练出能够对齐人类偏好的专业打分器。
4、VBench_Leaderboard排名
排行榜地址:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
Wanx 2.1的安装和使用方法
1、安装
Wanx 2.1 目前没有开源,无法本地安装。目前可在通义万相官网免费使用。个人开发者和企业用户也可以通过阿里云百炼调用通义万相API。
2、使用方法
用户进入通义万相官网,找到视频生成入口,输入提示词、选择比例和模式后点击生成即可。生成视频需要消耗灵感值(可通过签到、APP创作、创作反馈等方式获取),图像创作每次消耗1点,视频创作每次消耗5点。 Wanx 2.1 支持中英文视频一键生成艺术字,并提供多种视频特效选项(过渡、粒子效果、模拟等)。
官网使用地址:通义万相_AI创意作画_AI绘画_人工智能-阿里云
2.1、测试文字作画
2.2、测试文本生成视频
Wanx 2.1的案例应用
Wanx 2.1 的应用前景广泛,包括:
1、影视创作
提供高效便捷的工具,帮助电影制作人实现创意。
2、广告营销
生成个性化、吸引人的内容,帮助品牌传播形象。
3、教育培训
提供生动直观的教学内容,帮助学生学习。
4、游戏娱乐
提供逼真沉浸式的体验,提升游戏乐趣。