InstantID

EmoC001

已于 2024-03-12 00:59:44 修改

阅读量454

点赞数 4

分类专栏：鼠鼠的AI笔记文章标签：计算机视觉

于 2024-02-18 11:52:29 首次发布

本文链接：https://blog.csdn.net/u013302570/article/details/136148228

版权

鼠鼠的AI笔记专栏收录该内容

33 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

InstantID基于单一reference image，采用IdentityNet确保高保真度，并结合semantic及weak spatial conditions、landmark、文字prompts和Stable Diffusion模型。ControlNet和IP-Adapter在增强生成效果方面起到关键作用。用户反馈表明，尽管LORA曾被视为优秀方案，但InstantID的ControlNet和IP-Adapter提供更优体验。研究指出，CLIP Encoder可能成为负担，而IP-Adapter能减轻训练任务，提高可控性。Control Net的zero convolution在Encoder和Decoder中的应用旨在保持模型原始特性，同时引入额外条件。

摘要由CSDN通过智能技术生成

InstantID 成功的基础

仅一张reference image
通过自创的IdentityNet 来确保 image的high fidelity
- 含有semantic & weak spatial conditions
使用了面部的landmark
使用了文字prompts
使用了Stable Diffusion的模型 1.5 或者也可以是 SDXL
ControlNet
IP-adpter 的prompts模式

用户测评

之前使用LORA的方式去训练专门的人物模型，靠，以为是最赞的方式了，但是后来发现还有更赞的，其实faceswap 就够赞的了，而且比SD更早的出现。确实LORA的经济效益不高，至少一个人物，从收集素材到训练完成，不ADHD的话，整个过程至少半小时。
嗯，很满意！速度灰常的快，但是整体流程感觉和Reactor类似，特别是codeformer 换脸那里。但是这个面部生成的效果更好，更自然贴合。
Guidance越小，生成的效果，个人越喜欢。测试了juggle的风格，如果guidance过大，整个画面会趋于橘色（饱和感）（具体原因不明）