ConsistentID : Portrait Generation withMultimodal Fine-Grained Identity Preserving # 论文阅读

最新推荐文章于 2024-07-08 18:48:12 发布

奔跑的汉堡包

最新推荐文章于 2024-07-08 18:48:12 发布

阅读量353

点赞数 5

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_29679623/article/details/138591122

版权

URL

https://arxiv.org/pdf/2404.16771

TD;DR

2024 年 4 月 lenovo 的文章，面向的任务是面部 ID 保持。整篇文章看下来核心应该是提出的面部一致性保持数据集，大约有 50w 张面部图片。另外文章也说提出了一种面部保持的方法（作为 baseline），可以基于一张参考图实现面部一致性生成。核心贡献是优化了面部特征的打标过程，同时引入面部细节的 attention 机制保证面部特征的一致性。

在这里插入图片描述

作者表示，已有的方法生成的图片，尽管看上去脸的结果和参考图长得差不多，但是细节的保持做的仍然不够好，如下图（一些细微的特征）
在这里插入图片描述

Model & Method

整体 ppl 如下图，包括两部分：

面部特征提取，包括细粒度特征和面部 id 特征提取。可以理解为是分别提取外观特征和结构特征。
a. 细粒度特征提取用的是 llava + clip img encoder
b. face id 特征也是一个专用的 img encoder
图片生成：把第一步得到的两组特征 + caption 一起注入 SD。注入的时候只会针对 cross attn 里面的 mask 区域，否则 cross attn 通常会关注到全局的信息导致注入的信息影响其他区域，同时其他区域的 prompt 也会影响到主体的 mask 区域内

在这里插入图片描述

Dataset & Result

数据集方面，本文提出了一个全新的面部 id 保持数据集。

结果展示如下图
在这里插入图片描述

Thought

这篇论文看的不是特别仔细，有时间得看一下第一部分的面部特征提取 encoder 的结构，也许对 ip 保持也会有用？
这种细节和 ID 分开处理的思路，很想结构和外观分开处理的思路，非常像是当前版本的答案

奔跑的汉堡包

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
ConsistentID : Portrait Generation withMultimodal Fine-Grained Identity Preserving # 论文阅读

2024 年 4 月 lenovo 的文章，面向的任务是面部 ID 保持。整篇文章看下来核心应该是提出的面部一致性保持数据集，大约有 50w 张面部图片。另外文章也说提出了一种面部保持的方法（作为 baseline），可以基于一张参考图实现面部一致性生成。核心贡献是优化了面部特征的打标过程，同时引入面部细节的 attention 机制保证面部特征的一致性。作者表示，已有的方法生成的图片，尽管看上去脸的结果和参考图长得差不多，但是细节的保持做的仍然不够好，如下图（一些细微的特征）
复制链接

扫一扫