优云智算赋能国产AI：DeepSeek配合通义万相2.1文生视频模型生成高质量视频

置顶 I'mAlex

已于 2025-03-11 13:52:16 修改

阅读量2.2w

点赞数 87

分类专栏：人工智能文章标签：人工智能音视频

于 2025-03-11 13:29:56 首次发布

本文链接：https://blog.csdn.net/g310773517/article/details/146165068

版权

人工智能专栏收录该内容

82 篇文章

订阅专栏

阿里巴巴于2025年2月开源视频生成模型通义万相2.1，提供14B和1.3B参数版本，支持中英文视频生成及特效（如粒子效果、物理模拟），其14B在VBench榜单以86.22%得分登顶。通过优云智算平台，用户可借助其国产算力资源低成本部署，1.3B模型仅需8.2GB显存即可生成480P视频，5秒视频生成约需4分钟。通过DeepSeek进一步优化提示词（prompt），将模糊需求细化为具体场景描述，可以显著提升视频细节与场景丰富度，如生成“金毛犬追逐蝴蝶”场景时，优化后的prompt使视频文件体积增加2倍并增强观赏性。此组合方案使文生视频全流程国产化，可大幅降低创作门槛，能够有效的推动广告、影视等领域效率提升，展现开源生态的普惠价值。

🧑 博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质创作者，提供产品测评、学习辅导、简历面试辅导、毕设辅导、项目开发、C/C++/Java/Python/Linux/AI等方面的服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：gylzbk）

💬 博主粉丝群介绍：① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。③ 群内也有职场精英，大厂大佬，可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份，助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本，送真活跃粉丝，助你提升文章热度。有兴趣的加文末联系方式，备注自己的CSDN昵称，拉你进群，互相学习共同进步。

在这里插入图片描述

前言

2月25日晚，阿里巴巴放出一个大招：把自研的通义万相2.1文生视频模型直接开源啦！这次开源相当“大气”，用的是全球开发者都爱的Apache2.0协议，连140亿（14B）和13亿（1.3B）参数的两个版本都被完全开源了。无论是用文字生成视频（T2V），还是用图片生成视频（I2V），开发者都能在GitHub、HuggingFace这些技术社区，甚至魔搭平台上免费下载，想怎么玩就怎么玩！

先说说这俩版本的实力：
在这里插入图片描述
140亿参数的“重火力猛将：在权威考试卷VBench上直接飙到86.22分，完胜Sora、Luma这些国际选手，稳坐第一名；
小个头也有大能量的1.3B版本：虽然参数少，但表现居然超过了好多大块头开源模型，甚至能跟闭源的“黑箱选手”一较高下。最神奇的是，它能在普通显卡上跑起来，8.2GB显存就能生成480P的流畅视频，学生党和小团队研究简直太香了！

为了更好的测试通义万相的性能和效果表现，我特地从十几家GPU算力租赁平台中选择了性价比超高的国产算力平台：优云智算。新用户注册即送20元体验金，可以兑换近1天的4090显卡使用时长，非常棒，强烈安利给大家：https://www.compshare.cn/images-detail?ImageID=compshareImage-193qs5akuew3&referral_code=KsFp2NHoviAEv4Yu73Jktl&ytag=GPU_CSDN_Alex。

使用4090显卡，1.3B模型生成5秒视频也就花个4分钟左右，性价比超高！实际测试3090显卡也能跑，只是时间消耗上加倍了，但就其表现来说，也算非常不错的成绩了。

1. 一键部署通义万相2.1

优云智算除了提供算力租赁服务之外，还有一个非常厉害的功能，叫社区镜像。社区镜像是经过自定义配置的操作系统镜像，包含了预安装的软件、工具或模型，可方便快速部署和使用算力资源。
在这里插入图片描述
比如，我前几天就利用平台的镜像发布能力，将通义万相2.1的1.3B模型部署到云平台上并发布为了社区镜像，目前是免费开放的，大家申请到20元新用户体验金之后，可以直接一键部署，开箱既玩。下面教大家如何快速部署。

1.1 选择镜像

点击链接直达专属镜像，点击使用该镜像创建实例按钮。

1.2 实例配置

GPU型号：支持RTX40系和3090。实测这2个GPU都可以成功运行通义万相2.1的1.3B模型，只是生成时间有所不同。这里推荐大家选择40系，速度更快。
GPU数量：单GPU就可以跑，选1即可，性价比高。
CPU型号：该模型对CPU的消耗不大，所以选择默认的16C 64GB就足够用了。
付款方式：选按量计费即可，新用户注册赠送20元体检金，可以直接抵扣，直接0元搞起来！！！

最后点击立即部署按钮，稍等1分钟，就完成部署了。部署完成后，在实例列表页，就可以看到部署好的实例了。

1.3 远程登录

云服务器登录方式有2种：
1. 网页登录：复制密码之后点击登录按钮，粘贴上密码，就可以进入服务器命令行了。
在这里插入图片描述
2. SSH登录：用户名：root，密码：就是上一步复制的密码。注意：SSH端口号并不是默认的22，而是23。需要手动指定端口号为23。

2. 文生视频初体验

2.1 场景构建

接下来，我们想象一个场景：一只可爱的小狗在草坪上奔跑。然后我们使用通义万相2.1来生成视频，看看跟我们想象中的场景差别大不大。

2.2 视频生成

调用通义万相2.1 1.3B模型，进行文生视频的方法如下所示：

cd ~/Wan2.1-main/
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "一只可爱的小狗在草坪上奔跑"

生成完成之后，如下如所示。可以看到耗时只需要04:04（4分4秒），生成了一个名为t2v-1.3B_832*480_1_1_一只可爱的小狗在草坪上奔跑_20250311_104528.mp4的mp4视频。
在这里插入图片描述

2.3 视频下载

接下来，我们将视频下载到本地，可以使用scp工具。也可以拉起一个http 文件服务器，直接下载，方法如下：

cd ~/Wan2.1-main/
python -m http.server

文件服务器启动之后，会在8000端口启动一个http server。
在这里插入图片描述
我们使用云服务器的外网ip地址+8000端口，浏览器里访问就可以看到刚才生成的视频了，直接点击下载即可。

2.5 效果展示

如下所示，是刚才生成的视频：

一只可爱的小狗在草坪上奔跑

3. DeepSeek加持下的通义万相2.1

3.1 DeepSeek构建场景

从生成的视频来看，场景还是略显单调。怎么办呢？不要忘了我们还有另外一个国产之光：DeepSeek。

通过自然语言处理技术，DeepSeek可以将模糊的输入需求（如“夏日海滩”）自动扩展为具体细节描述（“夕阳、浪花、沙堡、孩童”），可以显著提升生成视频的场景完整度与细节真实感。

接下来，我们让DeepSeek为我们扩充下脚本，让视频场景更加饱满。

我：我需要使用AI工具生成一个5秒钟的视频，我想象的场景：一只可爱的小狗在草坪上奔跑，但我感觉不够饱满，帮我扩充下场景，使其更加丰满。100字以内。
DeepSeek：夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低角度跟拍，捕捉小狗跃起瞬间的粉舌与摇晃耳朵，尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝，背景虚化处可见彩色气球与野餐篮，空中飘落两片樱花瓣收尾于湛蓝天幕。

在这里插入图片描述

3.2 视频生成

接下来，再次调用通义万相模型生成视频：

cd ~/Wan2.1-main/
python generate.py  --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低角度跟拍，捕捉小狗跃起瞬间的粉舌与摇晃耳朵，尾巴扫过雏菊花丛。慢动作特写晶莹口水拉丝，背景虚化处可见彩色气球与野餐篮，空中飘落两片樱花瓣收尾于湛蓝天幕。"

生成完成之后，如下如所示。可以看到耗时04:03（4分3秒），跟之前的时间几乎一样，非常稳定。生成了一个名为t2v-1.3B_832*480_1_1_夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低_20250311_113212.mp4的mp4视频。
在这里插入图片描述

3.3 视频下载

可以在本地使用scp命令将云服务器上的视频下载到本地。

scp -P 23 root@117.50.188.250:/root/Wan2.1-main/t2v-1.3B_832*480_1_1_夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑。蒲公英随风飘散，樱花树投下斑驳光影。镜头低_20250311_113212.mp4 .

3.4 效果展示

如下所示，是刚才生成的视频：

夏日午后，金毛幼犬在翠绿草坪追逐蓝闪蝶，肉爪扬起细碎草屑

4. 效果对比

4.1 视频质量

虽然不同的prompt生成时间基本一致，但是从生成的视频文件大小可以看到，差了足足2倍多。说明经过DeepSeek优化之后的prompt，生成的视频质量效果是有直线提升的。
在这里插入图片描述

4.2 体感体验

对比默认promt生成的视频，可以明显的看到，在DeepSeek的加持下，通义万相2.1生成的视频包含了更多的元素，不再是单调的一只狗在奔跑。更加吸睛，更加精彩。

默认prompt	经DeepSeek优化后的prompt

总结

本次文生视频的实践，全部采用了国产技术，有国产算力平台（UCloud优云智算）、文本优化工具（DeepSeek）与文生图大模型（通义万相2.1）的深度协同。

通过算力支持+prompt优化+生成模型的组合，推动文生视频生成技术全流程国产化，完全摆脱了AI领域对国外工具的依赖。国产大有可为，国产加油！！！