DragGAN论文阅读

最新推荐文章于 2024-01-23 17:14:55 发布

‘Atlas’

最新推荐文章于 2024-01-23 17:14:55 发布

阅读量687

点赞数

分类专栏：论文详解数据生成跨模态文章标签：论文阅读 DragGAN AIGC

本文链接：https://blog.csdn.net/qq_41994006/article/details/131197182

版权

论文详解同时被 3 个专栏收录

72 篇文章 15 订阅

订阅专栏

跨模态

25 篇文章 2 订阅

订阅专栏

数据生成

23 篇文章 1 订阅

订阅专栏

文章目录

摘要
问题
3. 算法：
4. 实验
结论

论文：《Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold》
github： https://github.com/XingangPan/DragGAN

摘要

用户想要灵活控制姿态、形状、表情以及生成目标布局。现有方法：GAN通过有标定训练集实现、或者先验3D模型，这缺少灵活度、精确度及泛化性。本文提出DragGAN，主要包括两部分：
1、基于特征的运动监督，驱动点运动到目标位置；
2、点跟踪方法利用生成器特征定位点。
即使对一些有挑战场景，比如遮挡

问题

DragGAN主要解决两个问题：

移动点到目标位置；
跟踪点的位置；

DragGAN基于观点：
GAN的特征空间具有足够区分度，可用于运动监督以及精确点跟踪。

3. 算法：

3.1 基于点的交互式操作

图像控制流程如图2所示，对于依据隐向量 $w$ 及GAN生成图片 $I$ ，用户可输入一系列处理点 $p_i$ 记忆对应目标点 $t_i$ ，目标是移动图中目标，使得处理点的语义位置达到对应目标点。
如图2，优化过程分为两步：运动监督及点跟踪。强制处理点移动到目标点的损失函数用于优化隐向量 $w$ ，得到新的隐向量 $w ‘$ 及新图片 $I ’$ ，每次优化仅运动一小步，具体步长是不清楚的，因此需要通过跟踪模块，更新处理点位置。这个过程持续30-200轮迭代。
在这里插入图片描述

3.2 运动监督

在这里插入图片描述

作者提出运动监督损失不依赖于额外的神经网络，由于生成器中间特征已经具有差异性，作者选取StyleGAN2第六个block的特征，作者将其resize到与输出图片尺寸一致。如图3，移动处理点 $p$ 至 $t$ ，损失函数如式1，
在这里插入图片描述

在这里插入图片描述

二值mask M用于保证保证feimask区域不变；隐向量 $w$ 可在 $W$ 空间优化也可在 $W +$ 空间优化， $W +$ 空间更易在离群数据上操纵， $W +$ 表示StyleGAN2各个层使用不同隐向量 $w$ ， $W$ 表示各个层使用相同隐向量 $w$ 。实验发现图像空间属性受 $w$ 前六层影响，因此只更新 $w$ 的前六层。

3.3 点跟踪

通过运动监督模块更新 $w$ 为 $w ‘$ ，得到新特征图 $F ’$ ，新图片 $I ‘$ ，但无法提供处理点在新图 $I ’$ 中位置，点跟踪用于更新处理点 $p$ 。常规点跟踪方案为光流或粒子视频方法，但是不够高效或者产生累计误差，尤其是在GAN生成伪影时。
作者认为GAN的特征捕获稠密点一致性信息，因此可通过最邻近搜寻寻找处理点，如式2，
在这里插入图片描述

4. 实验

4.1 质量评估

图4作者比较DragGAN与UserControllableLT，DragGAN结果更加自然，移动更加准确；
在这里插入图片描述

图6作者与PIPs、RAFT比较点跟踪方法，作者所提方法更加准确。
在这里插入图片描述

**真实图片操纵。**通过反向GAN编码真实图片至StyleGAN的隐空间，也可操纵真实图像，如图5、13
在这里插入图片描述

4.2 量化评估

人脸操纵。
作者通过StyleGAN生成两人脸，利用现有工具预测人脸关键点，通过DragGAN将图1人脸关键点迁移至图2人脸关键点位置，计算迁移后图片人脸关键点与图2中人脸关键点距离，以此为评估指标。结果如表1，可视化结果如图7。
在这里插入图片描述

成对图像重构。
作者利用StyleGAN生成图片 $I_1$ 及 $I_2$ ，在光流区域随机采样32个点作为用户输入 $U$ ，目标为利用 $I_1$ 及 $U$ 重构 $I_2$ ，量化结果如表2所示。
在这里插入图片描述

消融实验
作者比较不同层特征对运动监督、点跟踪的影响，如图3所示，StyleGAN第6个block特征表现最佳。
在这里插入图片描述

4.3 讨论

图8展示可移动区域mask的影响。
在这里插入图片描述
图9展示OOD数据的图像操纵。

限制：
图14a展示一些限制，对于一些偏离训练集分布的姿态容易产生伪影。
如图14b、c，对于一些缺少结构信息信息的处理点，跟踪时会出现偏移。
在这里插入图片描述

结论

作者提出DragGAN，一种交互式基于点的图像编辑方法，可以依据用户输入操纵图像。这归因于两点：
a. 隐向量优化模块，将处理点移动至目标点；
b. 点跟踪模块准确跟踪处理点轨迹。
DragGAN超越现有基于GAN的图像操纵方法，同时开拓新方向，利用生成先验进行图像操纵。

‘Atlas’

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DragGAN论文阅读

作者提出DragGAN，一种交互式基于点的图像编辑方法，可以依据用户输入操纵图像。这归因于两点：a. 隐向量优化模块，将处理点移动至目标点；b. 点跟踪模块准确跟踪处理点轨迹。DragGAN超越现有基于GAN的图像操纵方法，同时开拓新方向，利用生成先验进行图像操纵。
复制链接

扫一扫