[ComfyUI]字节HyperLORA开源!零样本换脸碾压InstantID?GitHub已爆火

大家好,

今天来分享下字节最新出的零样本真人ID一致性解决方案,这个是SDXL的方案,听说很厉害,我们今天来测评一下。

一、HyperLoRA介绍

啊哈,又有很棒的新技术了,字节发布了最新的肖像技术,这个是基于SDXL的,看官方介绍好像比之前InstantID更强,超强零样本真人ID一致性,我们来一起测试看看吧。

图片

个性化肖像生成:背景与挑战

个性化肖像合成在社交娱乐等领域具有重要意义。

  • 传统方法:基于LoRA和DreamBooth等方法,需针对个人样本进行微调,耗时耗资源。
  • Adapter方法:如IP-Adapter,虽能零样本推理,但生成图像自然度和真实感不足。
  • 核心挑战: 如何在保证身份保真度的同时,实现高编辑性和快速推理速度。

HyperLoRA:参数高效自适应生成方法

核心思想: 采用自适应插件网络生成LoRA权重,融合LoRA的高性能和Adapter的零样本能力。

关键优势:

  • F:高保真度 (Fidelity)
  • E:高可编辑性 (Editability)
  • S:快速推理速度 (Speed)

创新点: 低维线性LoRA空间,参数分解与多阶段训练策略。

图片

我们将 HyperLoRA 明确分解为 Hyper ID-LoRAHyper Base-LoRA。**前者旨在学习身份信息,而后者则旨在拟合其他信息,例如背景和服装。**这种设计有助于防止无关特征泄露到 ID-LoRA。在训练过程中,我们固定预训练的 SDXL 基础模型和编码器的权重,仅允许 HyperLoRA 模块通过反向传播进行更新。在推理阶段,集成到 SDXL 中的 Hyper ID-LoRA 会生成个性化图像,而 Hyper Base-LoRA 是可选的。

图片

来看看官方给出的技术对比效果图

图片

图片图片

图片

图片

看着还不错,我来测试看看效果吧。

总结 (Summary):

  • HyperLoRA:首个基于LoRA的零样本个性化肖像生成方法。
  • 优势:高保真度、高可编辑性、快速推理速度。
  • 创新点:低维线性LoRA空间、参数分解、多阶段训练策略。

结论: HyperLoRA为个性化肖像生成领域提供了一种新的有效方案,具有广阔的应用前景。

二、相关安装

插件安装

插件地址:https://github.com/bytedance/ComfyUI-HyperLoRA

图片

模型安装

模型目录结构如下,网盘都给大家提供了

图片

一共发布了两个版本的 HyperLoRA。

  • sdxl_hyper_id_lora_v1_fidelity 提供更高的保真度
  • sdxl_hyper_id_lora_v1_edit 提供更佳的可编辑性

需要注意的是,我们使用 FP16 精度训练了一些额外的步骤,并将 0.25 倍的 Base LoRA 提炼到 ID LoRA 中,这进一步缩减了模型大小和 GPU 内存占用。

三、测评体验

工作流已上传以下平台:

RH在线运行:https://www.runninghub.cn/post/1916141850053246977?inviteCode=kol01-rh024

官方给出几种尝试的方案

  • 文生图
  • 文生图+面部细化
  • 文生图+Controlnet控制
  • 文生图+InstantID

官方推荐使用 RealVisXL v4.0 模型,效果最佳

LoRA 权重通常在0.750.85 左右。如果提示很长,可以适当增加权重(触发词的权重也一样)。如果需要更好的可编辑性,可以适当降低权重。

我直接一个工作流把上面功能都整合进来了

并且给出了一组对比图,分别是HyperLORA出图、InstantID出图、HyperLORA+InstantID出图

这样方便做比较,还接入了评分系统,可以更加直观的看到对比。

先说结论:

  • 单独使用HyperLORA并不比InstantID强
  • HyperLORA+InstantID组合出图效果最好

工作流截图:

图片

HyperLoRA核心节点如下图所示

图片

现在先来看一组对比

fcsks fxhks fhyks, a young woman, wearing wedding dress, at church

下面是三种对比

可以很明显的看到,有涉及InstantID的,会默认参考原图的构图,所以泛化性变小了。

图片

所以我这里做了一个操作,给instantID这边加了一个图像姿势参考

图片

这样,就会是半身照了,下面是对比图,可以看到,HyperLORA+InstantID出图的DIST是最低的,也就最像。

图片

下面这组对比是加了面部细化和不加面部细化的对比,可以看出来,如果是中景,面部比较小的情况,还是加上面部细化效果会好很多。

加了面部细化后,DIST值从0.451降低到0.383,说明更像了

图片

我们换一组图看看

fcsks fxhks fhyks, Real photography, a girl, 4K, RAW photo, Korean portrait photography, korean style, close-up, 1 beautiful girl, exquisite makeup, delicate skin, long hair, beige off-shoulder sweater, depressed mood, ambient light, film lighting, polaroid effect, dark tone, snow scene, snowflakes Falling, outdoor shooting, background blur, Sunlight, (extreme light:1.2), Korean drama heroine's atmosphere, real photos, best picture quality, high details, (Nikon AF-S 105mm f/1.4E ED)

图片

还是组合使用的最像,DIST分数最低。

下面请老演员出来

fcsks fxhks fhyks, a man, white shirt, gray background

图片

这一组效果都还不错

最后说一个翻车案例,我发现啊,单独使用HyperLORA很吃提示词,有时候完全不像,搞不懂为什么,测试了好几个提示词,都有这种情况发生。

Intimate close-up of a woman resting on a cloud of cotton,  the cotton appearing plush and inviting, soft shadows creating depth, muted color palette, ethereal lighting, calm ambiance. 

图片

大家看,上图中左侧第二张图就是单独使用HyperLORA出的图,完全不像,所以这个模型多多少少有点小问题,有时候很像,有时候不像,不懂是不是我用法不对。

不过我还是推荐结合InstantID使用,这种效果是最好的

这句话也是我这次测评总结的最重要的结论哈哈。

为了帮助大家更好地掌握 ComfyUI,我花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取

一、ComfyUI配置指南

  • 报错指南
  • 环境配置
  • 脚本更新
  • 后记

img

二、ComfyUI基础入门

  • 软件安装篇
  • 插件安装篇

img

三、 ComfyUI工作流节点/底层逻辑详解

  • ComfyUI 基础概念理解
  • Stable diffusion 工作原理
  • 工作流底层逻辑
  • 必备插件补全

img

四、ComfyUI节点技巧进阶/多模型串联

  • 节点进阶详解
  • 提词技巧精通
  • 多模型节点串联

img

五、ComfyUI遮罩修改重绘/Inpenting模块详解

  • 图像分辨率
  • 姿势

img

六、ComfyUI超实用SDXL工作流手把手搭建

  • Refined模型
  • SDXL风格化提示词
  • SDXL工作流搭建

img

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取

img

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值