ConsistentID : Portrait Generation withMultimodal Fine-Grained Identity Preserving # 论文阅读

URL

https://arxiv.org/pdf/2404.16771

TD;DR

2024 年 4 月 lenovo 的文章,面向的任务是面部 ID 保持。整篇文章看下来核心应该是提出的面部一致性保持数据集,大约有 50w 张面部图片。另外文章也说提出了一种面部保持的方法(作为 baseline),可以基于一张参考图实现面部一致性生成。核心贡献是优化了面部特征的打标过程,同时引入面部细节的 attention 机制保证面部特征的一致性。

在这里插入图片描述

作者表示,已有的方法生成的图片,尽管看上去脸的结果和参考图长得差不多,但是细节的保持做的仍然不够好,如下图(一些细微的特征)
在这里插入图片描述

Model & Method

整体 ppl 如下图,包括两部分:

  1. 面部特征提取,包括细粒度特征和面部 id 特征提取。可以理解为是分别提取外观特征和结构特征。
    a. 细粒度特征提取用的是 llava + clip img encoder
    b. face id 特征也是一个专用的 img encoder
  2. 图片生成:把第一步得到的两组特征 + caption 一起注入 SD。注入的时候只会针对 cross attn 里面的 mask 区域,否则 cross attn 通常会关注到全局的信息导致注入的信息影响其他区域,同时其他区域的 prompt 也会影响到主体的 mask 区域内

在这里插入图片描述

Dataset & Result

数据集方面,本文提出了一个全新的面部 id 保持数据集。

结果展示如下图
在这里插入图片描述

Thought

  • 这篇论文看的不是特别仔细,有时间得看一下第一部分的面部特征提取 encoder 的结构,也许对 ip 保持也会有用?
  • 这种细节和 ID 分开处理的思路,很想结构和外观分开处理的思路,非常像是当前版本的答案
  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值