【ComfyUI】Animate 双人重绘场景动作迁移视频生成

AI的出现,是否能替代IT从业者? 10w+人浏览 1.5k人参与

今天给大家演示一个双人场景动作迁移的视频生成工作流。它把角色重绘、动作捕捉、图像编辑和视频生成串在一起,用一条完整链路实现从输入图像到最终双人舞蹈视频的效果。

整个流程依靠 Qwen Image Edit 系列模型和 WanVideo 视频生成体系,并结合多路图片编码、文本提示、姿态关键点与面部遮罩的综合处理,让角色既能保持风格,又能自然跟随目标动作。

工作流介绍

这个工作流基于 ComfyUI 搭建,核心思路是通过 Qwen Image Edit 模型完成场景与人物重绘,再用 WanVideo 的多模态编码器与视频生成模块进行动作迁移和最终视频输出。整套体系包含模型加载、文本与视觉编码、姿态关键点与面部遮罩生成、图像预处理、潜空间采样以及 WanVideo 视频渲染等环节。它通过多节点协作,把输入的两张人物图像转化为可控的动作视频。以上关键能力都来自模型和节点组合的共同作用。

在这里插入图片描述

核心模型

核心部分使用 Qwen Image Edit UNet 和其 Lightning 版本进行图像编辑,再结合 Wan2.1 系列 VAE、WanVideo 文本编码器和 CLIP Vision 编码器生成视频所需的多模态特征。模型之间通过 LoRA、采样器、潜空间等机制建立衔接,确保角色重绘精准、动作迁移自然。

模型名称说明
qwen_image_edit_2509_bf16.safetensors主体图像编辑 UNet 模型,用于重绘场景与角色风格保持
Qwen-Image-Edit-Lightning-8steps-V1.0-bf16.safetensors快速推理版本,提高编辑与生成效率
qwen_image_vae.safetensors图像编码/解码 VAE,负责潜空间转换
Wan2_1_VAE_bf16.safetensors视频生成专用 VAE,提供更稳定的帧一致性
clip_vision_h.safetensorsCLIP Vision 模型,用于图像特征提取与动作对齐
umt5-xxl-enc-bf16.safetensorsWanVideo 文本编码模型,用于处理提示词

Node 节点

节点体系涵盖模型加载、图像预处理、参数管理、姿态与面部遮罩、文本与视觉编码、潜空间采样、视频渲染等多个维度。每个节点承担明确职责,像 ImageResizeKJv2 处理画幅、TextEncodeQwenImageEditPlus 负责融合图像与文本条件、KSampler 推动潜空间扩散、WanVideoClipVisionEncode 提取多图视觉特征等。节点之间的数据流让整个流程自动化、高度可控。

节点名称说明
UNETLoader加载 Qwen Image Edit 主模型
LoraLoaderModelOnly注入 LoRA 权重增强风格特征
VAELoader加载图像 VAE,负责编码解码
ImageResizeKJv2图像分辨率与裁切处理
TextEncodeQwenImageEditPlus文本编码节点,用于图像编辑流程
KSampler扩散采样器,生成潜空间内容
EmptySD3LatentImage创建潜空间图像
CLIPVisionLoader加载 CLIP Vision 模型
WanVideoClipVisionEncode对输入图像生成视频视觉特征
WanVideoVAELoader加载 WanVideo 的专用 VAE
WanVideoTextEncodeCached文本提示编码
FaceMaskFromPoseKeypoints基于姿态关键点生成面部区域遮罩
PixelPerfectResolution自适应分辨率计算
PurgeVRAM模型缓存清理,避免显存堆积

工作流程

整个流程围绕人物图像的重绘、动作特征抽取、潜空间生成以及 WanVideo 的视频渲染展开。前期通过多路图像编码和分辨率处理,为后续动作迁移建立标准化输入。随后使用 Qwen Image Edit 的文本与视觉联合编码机制,把提示词和多张图像整合成一致的条件向潜空间传递。中段由 KSampler 在潜空间中完成扩散生成,确保角色外观、姿态、场景元素都能跟随目标动作。后段由 WanVideo 的视觉与文本编码器协同工作,将人物的视觉特征、视频风格需求和动作关键点整合,最终在专用 VAE 中渲染成多帧视频。整个链路从输入到视频导出完全自动化,保持角色一致性和动作自然衔接。

流程序号流程阶段工作描述使用节点
1输入预处理将人物图像按视频需求调整尺寸与裁切,并生成面部遮罩等辅助数据ImageResizeKJv2、FaceMaskFromPoseKeypoints、PixelPerfectResolution
2模型加载加载图像编辑 UNet、图像 VAE、WanVideo 专属 VAE 与 CLIP VisionUNETLoader、VAELoader、WanVideoVAELoader、CLIPVisionLoader
3文本与图像编码将提示词编码为文本特征,读取多张图像生成视觉特征,为重绘与动作迁移提供条件输入TextEncodeQwenImageEditPlus、WanVideoTextEncodeCached、WanVideoClipVisionEncode
4潜空间生成创建空潜空间并通过扩散采样器生成核心图像潜变量EmptySD3LatentImage、KSampler
5角色重绘与风格融合将视觉特征、提示词和动作信息整合到模型中完成角色外观与动作的统一LoraLoaderModelOnly、TextEncodeQwenImageEditPlus
6视频渲染在 WanVideo 中依据视觉特征、文本特征与潜空间内容生成最终视频帧WanVideoVAELoader、WanVideoClipVisionEncode
7显存管理与输出渲染结束后清理缓存并输出最终视频流PurgeVRAM

大模型应用

TextEncodeQwenImageEditPlus 图像编辑语义控制编码

该节点承担图像编辑过程中的核心语义解析任务。它将用户输入的 Prompt 与多张图像特征一起编码成条件信息,驱动后续图像编辑模型在重绘时保持语义一致。Prompt 在此节点中扮演关键角色,负责控制人物动作、风格、表情以及整体画面的语义方向。用户通过调整 Prompt,可以影响编辑生成的精确度、视觉表现和细节质量。

节点名称Prompt 信息说明
TextEncodeQwenImageEditPlus两个角色在跳舞将文本提示与输入图像、VAE 编码共同处理,输出用于图像编辑的语义 Conditioning

WanVideoTextEncodeCached 视频语义文本编码

此节点主要负责视频生成中的文本语义控制。它将 Prompt 编码为可被 WanVideo 模型理解的多模态文本特征。Prompt 在这里影响视频整体叙事倾向,包括人物动作节奏、表演风格以及镜头氛围。通过输入不同 Prompt,用户能让同一动作呈现完全不同的情绪和视觉语调,使视频生成更可控、更具表现力。

节点名称Prompt 信息说明
WanVideoTextEncodeCached两个角色在跳舞将 Prompt 文本编码成 WanVideo 格式的语义 Embedding,用于指导最终视频生成

WanVideoClipVisionEncode 多图视觉语义融合编码

该节点从多张输入图像中提取视觉特征,并将其编码为视频生成所需的视觉语义向量。Prompt 不直接写在节点中,但视觉 Embedding 会与 Prompt 所表达的语义共同决定最终视频的动作呈现方式。输入图像与 Prompt 的配合,帮助模型理解角色外观、动作趋势与整体视觉风格,从而实现视频中角色形象的一致性。

节点名称Prompt 信息说明
WanVideoClipVisionEncode(无文本 Prompt)编码输入角色图与动作图,形成视觉层面的潜变量语义,用于动作迁移与角色保持

使用方法

整个工作流在用户替换素材后可以自动完成从图像输入到视频渲染的完整链路。用户只需提供两类图像素材(角色图像与动作参考图)、可选音频以及文本 Prompt,系统就会根据这些信息自动处理分辨率、重绘、动作迁移、潜空间采样与最终视频生成。角色图决定人物外观,动作图负责提供动作结构,而 Prompt 则统领最终生成的风格、场景氛围与动作表现力度。完整工作流会自动串联各大模型节点,在不需要手动调整参数的前提下实现高质量的视频输出。

注意点说明
角色图质量要高清晰正面的角色图会带来更稳定的特征重建
动作参考要完整动作图像越完整,动作迁移越顺畅自然
Prompt 尽量明确明确动作与风格描述能大幅提升生成一致性
分辨率需匹配工作流图像过小可能导致细节缺失,需按工作流自动调整
避免多余背景干扰清晰主体有助于视觉编码器稳定提取特征
不要频繁切换模型频繁替换核心模型可能导致缓存错乱或显存占满
生成前检查节点连线缺失连线会导致渲染中断或结果异常

应用场景

这个工作流适合所有需要把静态人物图像转化为动态动作视频的场景。它能把任意两个人物放入同一画面,让他们根据特定动作进行舞蹈或表演,同时保持角色外观一致。以 Qwen Image Edit 的风格稳定性结合 WanVideo 的动作逼真度,可以广泛用于创意内容制作、虚拟人视频生成、剧情分镜制作以及自媒体内容增强。其灵活的提示词系统和强大的多模态编码结构让用户可以轻松定义场景氛围、动作节奏以及镜头效果,从而快速生成可发布的视频内容。

应用场景使用目标典型用户展示内容实现效果
双人舞蹈视频生成让两个人物在同一场景中跳舞并保持风格统一自媒体创作者、短视频制作者双人动作同步舞蹈视频人物自然互动、动作连贯、风格统一
二次元角色动作迁移让静态动漫角色完成动态动作动画制作人、同人创作者二次元角色表演视频角色保持设定风格同时完成目标动作
虚拟人内容创作生成多角色互动或表演类视频虚拟主播、内容工作室虚拟人舞蹈、对戏、展示片段角色表情自然、动作真实、视频一致性高
影视分镜预演快速制作动作示意视频导演、分镜师快速预演的动作镜头序列提高创作效率,快速验证镜头结构
角色营销内容生成为产品角色生成互动视频品牌方、广告公司IP角色动作演示、互动短片提升宣传吸引力与内容丰富度

开发与应用

更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅:

AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用

### 使用ComfyUI创建视频生成工作流 在构建基于ComfyUI视频生成工作流时,利用诸如SDXL-Turbo、LCMlora、ControlNets和Animate这样的工具能够显著提高效率和效果[^1]。下面是一个详细的指南来说明如何设置这一高效的工作流程。 #### 准备环境 确保已经按照基础教程中的指导完成了ComfyUI平台的选择理由理解及其优缺点分析;掌握了下载安装方式;熟悉了模型与插件加载过程;学习到了关于工作流节点操作的知识点以及底层机制解析等内容[^2]。这些预备知识对于顺利建立复杂的多模态转换管道至关要。 #### 导入已有资源 通过`workspace`插件功能可以直接把预先准备好的图像素材库或者其他相关资产文件夹整体迁移ComfyUI环境中去处理[^3]。这一步骤简化了许多前期准备工作,并允许用户专注于核心创作环节而非复性的数据搬运任务。 #### 构建实时图片到帧序列转化器 借助于SDXL-Turbo的强大性能,在短时间内完成高质量静态画面渲染成为可能。与此同时,引入ControlNet可以帮助调整每一帧之间的连贯性和一致性,从而使得最终输出更加流畅自然。具体实现可以通过配置特定参数控制不同阶段的行为模式: ```python from comfyui import sdxl_turbo, controlnet def generate_frame(prompt_text, previous_image=None): # 利用turbo加速生成单张高分辨率图像 new_image = sdxl_turbo.generate_from_prompt(prompt_text) if previous_image is not None: # 应用controlnet保持相邻两帧间视觉连续性 adjusted_image = controlnet.apply(previous_image, new_image) return adjusted_image or new_image ``` #### 整合音频驱动动画逻辑 为了让生成的内容更生动有趣,还可以考虑加入声音元素作为输入条件之一影响画风变化趋势。比如当检测到音乐节奏加快时适当增加动作幅度或色彩对比度等特性。这里可以采用类似LCMlora的技术方案来进行跨媒体特征映射关联设计。 #### 输出合成多媒体文件 最后一步就是将所有单独制作出来的静止影像按顺序排列组合成完整的动态影片片段。通常情况下会涉及到编码压缩算法选择等问题,但得益于现代GPU硬件支持下的高性能计算能力,这个部分往往不会占用太多额外开发成本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr数据杨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值