[Comfyui] 从图像到视频！我的Ipadapter-Plus 学习过程都在这里【附工作流】-CSDN博客

本文链接：https://blog.csdn.net/m0_59162559/article/details/147160143

IPAdapter 是用于图像到图像调节的非常强大的模型。主题甚至参考图像的风格都可以很容易地转移，可以将其视为一张图像的 lora。

安装

使用 Comfyuimanager 或者使用命令行

进入 custom_nodes 目录

git clone https://github.com/cubiq/ComfyUI_IPAdapter_plus.git

这份完整版的comfyui资料包已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述
重启 comfyui

Ipadaper 基本原理

IP-Adapter 提供了一种独特的方法来控制图像和视频的生成。它的工作方式与 ControlNet 不同 - 它不是试图直接引导图像，而是通过**将提供的图像转换为嵌入(embedds)（本质上是一个提示）**并使用它来指导图像的生成。它生成的嵌入在英语中是无法理解的，它可以以文本提示 struggle 的方式详细说明（即，很难描述衬衫上衣领的确切类型或部分张开的嘴的形状）。由于它无需动手，因此可以在保持连贯性的同时进行更重的风格传输。

它依赖于剪辑视觉(clip_vision )模型 - 该模型查看源图像并开始编码 - 这些是其他计算机视觉任务中使用的成熟模型。然后 IPAdapter 模型使用此信息并创建令牌（即提示(prompts)）并应用它们。重要的是要知道 Clip Vision 仅使用 512x512 像素 - 因此，如果太小，精细细节仍然会丢失。

简单来说就是使用 clip_vision 模型将图片转成一种特定的 prompt 结合我们输入的 prompt 共同作用生成

使用案例拆解

风格参考

在 model 的路径上加入 Ipadapter 应用；即下图部分 ``

Ipadapter model + clip_version + image => ipadapter

应用进行Ipadapter 应用

主要节点

应用IPAdapter（高级)

参数 :

model : 正常工作流加载的模型；即未使用ipadapter时加载的模型
ipadapter : 使用的 ipadapter 模型加载
正面图像：需要参考的图像
负面图像：需要参考的负面图像；可用于噪声注入，一般为噪点图,通常会带来更好的结果
关注层遮罩：即IPA作用的遮罩区域，如果不传就是作用整个图像生成
clip 视觉：加载使用的视觉模型
权重：ipadapter 的强度，0-1 取值，数值越高，ipa权重越强，参考图片的强度越大
权重类型：
- liner: 线性强度,从图像生成流程的初始到结束阶段，始终以恒定强度施加参考图的影响;需保持参考图风格或构图稳定性的任务（如产品设计模板化输出）
- ease in (渐强): 在生成初期以较低强度介入，随着生成进度逐步增强参考图的影响 ; 避免初始阶段参考图特征过于突兀，适合需要自然过渡的场景（如背景融合）
- ease out (渐弱): 生成初期以高强度介入，后期逐步减弱参考图影响; 适用于希望保留参考图核心元素但需增加创意变化的场景（如艺术风格化）
- Ease In-Out（渐强-渐弱）: 生成初期和末期以较低强度介入，中期达到影响峰值；平衡生成过程首尾阶段的自由度与中期精准控制，适合复杂构图生成。
- Weak Input (弱化输入阶段) : 降低生成流程早期对参考图的依赖，避免初始特征过度固化; 需保留参考图色彩但重构构图的广告海报设计。
- Weak Output（弱化输出阶段）: 减弱生成末期参考图的影响，提升最终细节的原创性; 角色设计需保留基础特征但增加服饰/背景创新
- Weak Middle (弱化中间)：在生成中期最小化参考图影响，强调首尾阶段控制
- Strong Middle(强化中间)：在生成中期最大化参考图影响，聚焦核心元素强化
- Style Transfer（风格迁移）：将参考图的艺术风格迁移至生成图像；
- Composition（构图迁移）：重点迁移参考图的元素布局与空间关系，弱化具体细节
- strong Style Transfer（强风格迁移）：Style Transfer的加强版
- Style and Composition (风格和构图)：风格和构图融合迁移
- Style Transfer Precise（精准风格迁移）：在风格迁移基础上增强细节还原度，适用于高精度商业设计；对原始图像的内容要求不高，主要参考其风格
- Composition Precise （精确构图迁移）：对风格迁移要求不高，主要参考构图

以下是在使用 PLUS模型的情况下各个权重类型对应的图片生成，大家可以自己参考下

**
**

CLIP视觉图像处理

**
**

该节点主要的作用为预处理输入的图片；因为Ipadapter 需要输入的图片为正方形的，使用该节点可以对图片进行裁剪处理，同时如果图片效果不太好比如场景比较复杂或者人物占据的位置很小，也可以使用该节点进行处理，使人物的占比更大，ipa更好进行识别；

裁剪位置：

top：裁剪参考图上面部分内容（一般用于竖图）

bottom：裁剪参考图下面部分内容（一般用于竖图）

left：裁剪参考图左边部分内容（一般用于横图）

right：裁剪参考图右边部分内容（一般用于横图，如上图示例）

center：从图片中心位置裁剪周围多余部分

pad：不裁剪，直接通过黑色补齐图像变成正方形，可以参考到整张图像的全部信息

效果如下

**
**

加载 ipadapter 模型

通常风格参考一般使用如下模型，其余的带 face的都和人物面部使用有关

Clip_version 加载

一般使用第一个

第二个一般配合 vit-G的ipadapter模型使用

其他方式 :

**
**

其中红色框框的两个分别加载可以使用绿色框框的统一加载代替

其组合方式为:

Ipadapter加载器	Ipadapter模型加载器	clip视觉加载器
PLUS (high strength)	ip-adapter-plus_sd15.safetensors	CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
LIGHT SD1.5 only (low strength)	ip-adapter_sd15_light_v11.bin	CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
STANDARD (medium strength)	ip-adapter_sd15.safetensors	CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
VIT-G(medium strength)	ip-adapter_sd15_vit-G.safetensors	CLIP-ViT-bigG-14-laion2B-39B-b160k.safetensors
PLUS FACE (portraits)	ip-adapter-plus-face_sd15.safetensors	CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors
FULL FACE SD1.5 only (portraits stronger)	ip-adapter-full-face_sd15.safetensors	CLIP-ViT-H-14-laion2B-s32B-b79K.safetensors

**
**

Ipadapter加载器效果测试

*脸部模型效果*

**
**

FULL FACE SD1.5 only (portraits stronger)

PLUS FACE (portraits)

其他模型效果

PLUS (high strength)

VIT-G(medium strength)

STANDARD (medium strength)

LIGHT SD1.5 only (low strength)

多风格融合

输入两张图片，一张水墨风格，一张针织童话风格，进行图片批次融合输出图像如下：

区域风格控制

方式一：使用蒙版控制区域图片生成

上面的提示词是 “左边一个中国古代武士，右边一个哥斯拉怪兽”；

使用蒙版控制ipadater生效区域实现

这种方式可以控制对应区域的ipa风格，但是没法控制各个区域的提示词；

所以导致生成的区域没有严格遵守提示词要求；

要想提示词也控制可以使用下面这种方式

方式二：IPAdapter区域条件

提示词:

总体提示词 : An ancient Chinese male warrior on left , a Godzilla monster on right 提示词1：a Godzilla monster on right 提示词2：An ancient Chinese male warrior on left

生成结果如下