[ComfyUI]字节HyperLORA开源！零样本换脸碾压InstantID？

最新推荐文章于 2025-04-28 09:30:56 发布

嘟嘟MD

最新推荐文章于 2025-04-28 09:30:56 发布

阅读量728

点赞数 6

分类专栏： ComfyUI一本通文章标签： AIGC ai绘画

本文链接：https://blog.csdn.net/c3618392/article/details/147551500

版权

ComfyUI一本通专栏收录该内容

17 篇文章

订阅专栏

一、HyperLoRA介绍

啊哈，又有很棒的新技术了，字节发布了最新的肖像技术，这个是基于SDXL的，看官方介绍好像比之前InstantID更强，超强零样本真人ID一致性，我们来一起测试看看吧。

个性化肖像生成：背景与挑战

个性化肖像合成在社交娱乐等领域具有重要意义。

传统方法：基于LoRA和DreamBooth等方法，需针对个人样本进行微调，耗时耗资源。
Adapter方法：如IP-Adapter，虽能零样本推理，但生成图像自然度和真实感不足。
核心挑战：如何在保证身份保真度的同时，实现高编辑性和快速推理速度。

HyperLoRA：参数高效自适应生成方法

核心思想：采用自适应插件网络生成LoRA权重，融合LoRA的高性能和Adapter的零样本能力。

关键优势：

F：高保真度 (Fidelity)
E：高可编辑性 (Editability)
S：快速推理速度 (Speed)

创新点：低维线性LoRA空间，参数分解与多阶段训练策略。

我们将 HyperLoRA 明确分解为 Hyper ID-LoRA 和 Hyper Base-LoRA。**前者旨在学习身份信息，而后者则旨在拟合其他信息，例如背景和服装。**这种设计有助于防止无关特征泄露到 ID-LoRA。在训练过程中，我们固定预训练的 SDXL 基础模型和编码器的权重，仅允许 HyperLoRA 模块通过反向传播进行更新。在推理阶段，集成到 SDXL 中的 Hyper ID-LoRA 会生成个性化图像，而 Hyper Base-LoRA 是可选的。

来看看官方给出的技术对比效果图

看着还不错，我来测试看看效果吧。

总结 (Summary):

HyperLoRA：首个基于LoRA的零样本个性化肖像生成方法。
优势：高保真度、高可编辑性、快速推理速度。
创新点：低维线性LoRA空间、参数分解、多阶段训练策略。

结论： HyperLoRA为个性化肖像生成领域提供了一种新的有效方案，具有广阔的应用前景。

二、相关安装

插件安装

插件地址：https://github.com/bytedance/ComfyUI-HyperLoRA

模型安装

模型目录结构如下，网盘都给大家提供了

一共发布了两个版本的 HyperLoRA。

sdxl_hyper_id_lora_v1_fidelity 提供更高的保真度
sdxl_hyper_id_lora_v1_edit 提供更佳的可编辑性

需要注意的是，我们使用 FP16 精度训练了一些额外的步骤，并将 0.25 倍的 Base LoRA 提炼到 ID LoRA 中，这进一步缩减了模型大小和 GPU 内存占用。

三、测评体验

工作流已上传以下平台：

RH在线运行：https://www.runninghub.cn/post/1916141850053246977?inviteCode=kol01-rh024

官方给出几种尝试的方案

文生图
文生图+面部细化
文生图+Controlnet控制
文生图+InstantID

官方推荐使用 RealVisXL v4.0 模型，效果最佳

LoRA 权重通常在0.75 到 0.85 左右。如果提示很长，可以适当增加权重（触发词的权重也一样）。如果需要更好的可编辑性，可以适当降低权重。

我直接一个工作流把上面功能都整合进来了

并且给出了一组对比图，分别是HyperLORA出图、InstantID出图、HyperLORA+InstantID出图

这样方便做比较，还接入了评分系统，可以更加直观的看到对比。

先说结论：

单独使用HyperLORA并不比InstantID强
HyperLORA+InstantID组合出图效果最好

工作流截图：

HyperLoRA核心节点如下图所示

现在先来看一组对比

fcsks fxhks fhyks, a young woman, wearing wedding dress, at church

下面是三种对比

可以很明显的看到，有涉及InstantID的，会默认参考原图的构图，所以泛化性变小了。

所以我这里做了一个操作，给instantID这边加了一个图像姿势参考

这样，就会是半身照了，下面是对比图，可以看到，HyperLORA+InstantID出图的DIST是最低的，也就最像。

下面这组对比是加了面部细化和不加面部细化的对比，可以看出来，如果是中景，面部比较小的情况，还是加上面部细化效果会好很多。

加了面部细化后，DIST值从0.451降低到0.383，说明更像了

我们换一组图看看

fcsks fxhks fhyks, Real photography, a girl, 4K, RAW photo, Korean portrait photography, korean style, close-up, 1 beautiful girl, exquisite makeup, delicate skin, long hair, beige off-shoulder sweater, depressed mood, ambient light, film lighting, polaroid effect, dark tone, snow scene, snowflakes Falling, outdoor shooting, background blur, Sunlight, (extreme light:1.2), Korean drama heroine's atmosphere, real photos, best picture quality, high details, (Nikon AF-S 105mm f/1.4E ED)

还是组合使用的最像，DIST分数最低。

下面请老演员出来

fcsks fxhks fhyks, a man, white shirt, gray background

这一组效果都还不错

最后说一个翻车案例，我发现啊，单独使用HyperLORA很吃提示词，有时候完全不像，搞不懂为什么，测试了好几个提示词，都有这种情况发生。

Intimate close-up of a woman resting on a cloud of cotton,  the cotton appearing plush and inviting, soft shadows creating depth, muted color palette, ethereal lighting, calm ambiance.