自媒体利器:阿里通义万象(Wan)(文生视频/图生视频)认知

最新推荐文章于 2025-03-23 16:16:43 发布

山河已无恙

最新推荐文章于 2025-03-23 16:16:43 发布

阅读量1.9k

点赞数 10

分类专栏： AI 应用开发文章标签：媒体

本文链接：https://blog.csdn.net/sanhewuyang/article/details/145943482

版权

AI 应用开发专栏收录该内容

11 篇文章

订阅专栏

写在前面

博文内容为阿里通义万象(Wan) 简单认知
理解不足小伙伴帮忙指正 😃,生活加油

99%的焦虑都来自于虚度时间和没有好好做事，所以唯一的解决办法就是行动起来，认真做完事情，战胜焦虑，战胜那些心里空荡荡的时刻，而不是选择逃避。不要站在原地想象困难，行动永远是改变现状的最佳方式

持续分享技术干货，感兴趣小伙伴可以关注下 ^_

Wan2.1 开源视频生成模型：让每个人都能轻松创作专业级视频

简单介绍

Wan2.1 是首个真正"亲民"的视频生成开源模型套件，具有以下突破性优势：

性能天花板：在多个评测基准测试中超越所有商业闭源视频模型
平民级硬件支持：1.3B模型仅需8GB显存即可运行，RTX 4090生成5秒480P视频仅需4分钟
全能创作能力：支持文本生成视频、图像扩展视频、视频编辑、文本生成图像等多种功能
多语言支持：全球首款中英双语视频生成模型
黑科技VAE：Wan-VAE视频编解码器可处理任意长度1080P视频，压缩效率提升300%

官网地址： https://wanxai.com/?utm_source=ai-bot.cn

项目地址： https://github.com/Wan-Video

在线体验地址：https://tongyi.aliyun.com/wanxiang/videoCreation

在这里插入图片描述

图生视频

生成视频

在这里插入图片描述

本地部署

Github 上面的部署教程很简单，就两条命了，在 window 上面试了好久没有成功，WSL 试了也不太行，主要问题是FLASH_ATTN 的安装，build 的时候一只卡着，没动静了。issues 上面也有好多其他的坑，所以不太建议没经验的小伙伴尝试，可以直接用在线版本的。之后 issues 解决可以尝试

# 克隆代码库（首次访问可能需要科学上网）
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

# 安装依赖环境（建议使用Python 3.12+）
pip install -r requirements.txt

模型下载

模型类型	分辨率	下载地址（HuggingFace）	下载链接（ModelScope）
T2V-14B	480P/720P	HuggingFace	ModelScope
I2V-14B-720P	720P	HuggingFace	ModelScope
T2V-1.3B	480P	HuggingFace	ModelScope

性能实测

下面为 readme 文件中提供的性能测试，有实际需求的小伙伴可以参考

不同硬件生成速度对比

模型	GPU型号	分辨率	生成时长	显存峰值
T2V-14B	RTX 4090	720P	120秒	16GB
I2V-14B	A100×8	720P	60秒	32GB
T2V-1.3B	RTX 4080	480P	4分钟	8GB

博文部分内容参考

https://github.com/Wan-Video