InstantID 成功的基础
- 仅一张reference image
- 通过自创的IdentityNet 来确保 image的high fidelity
- 含有semantic & weak spatial conditions
- 使用了面部的landmark
- 使用了文字prompts
- 使用了Stable Diffusion的模型 1.5 或者 也可以是 SDXL
- ControlNet
- IP-adpter 的prompts模式
用户测评
之前使用LORA的方式去训练专门的人物模型,靠,以为是最赞的方式了,但是后来发现还有更赞的,其实faceswap 就够赞的了,而且比SD更早的出现。确实LORA的经济效益不高,至少一个人物,从收集素材到训练完成,不ADHD的话,整个过程至少半小时。
嗯,很满意!速度灰常的快,但是整体流程感觉和Reactor类似,特别是codeformer 换脸那里。但是这个面部生成的效果更好,更自然贴合。
Guidance越小,生成的效果,个人越喜欢。测试了juggle的风格,如果guidance过大,整个画面会趋于橘色(饱和感)(具体原因不明)
Paper 里有意思的部分
- CLIP Encoder 再牛批,但目前来说反而成为累赘。比如IP-Adapter
- paper里说他们用了各种信息保证了脸部特征最大存留(Instant有自己的Image Encoder,不用CLIP了)