CVPR 2024 | 你的DragGAN并不需要点跟踪!FreeDrag:无需点跟踪即可稳定拖动语义内容...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信:CVer444,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

89d4adfc48ddb4f664c16596f5cf6768.jpeg

      22a66ccd89b1196d7dc3e8660d81787b.png

FreeDrag: Point Tracking is Not You Need for Interactive Point-based Image Editing

论文:https://arxiv.org/abs/2307.04684

代码:https://github.com/LPengYang/FreeDrag

主页:https://lin-chen.site/projects/freedrag/

近日,在AIGC的广阔世界里出现了一个火热的图像编辑方法—即通过在给定图像上通过把语义内容从原位置(handle point)拖动到目标位置(target point)的方式进行精细的定制化编辑操作。比如令人印象深刻的让你家猫咪对你wink的神奇操作:

4cffe3f09074778a4b022cd71619ca10.gif

这一惊人效果来自于发表在SIGGRAPH 2023会议上的 [Drag Your GAN] 论文(简称为DragGAN)。并且DragGAN的代码一经发出就在短短几周内狂揽30K star,引发广大网友的“Drag”热潮。有了DragGAN的加持,各种AI画图工具的「阿喀琉斯之踵」再也不是弱点,哪里不满意就只修哪里!

ce609cde2ae870023f9f76a4b7589c78.png

图 1 DragGAN 由于内容突变发生跟踪点丢失

近日,中科大和上海AI Lab的研究者们又发布了一项相关研究—FreeDrag。研究者们表明,先前的DragGAN由两个交替迭代进行的过程构成:(1)运动监督(motion supervision)过程指导handle point向着对应的target point进行移动;(2)点跟踪(point tracking)过程则负责定位移动后handle point的精确位置从而为下次移动提供方向和约束特征。因此DragGAN 严重依赖于点跟踪的精确性。然而,点跟踪的策略本质上是不稳定的,因为它隐式地假设每次移动后在默认的搜索区域内有且仅有一个点完美继承了handle point的特征。这个假设会在以下两种情况下失效:i) 图像内容发生剧烈变化导致的跟踪丢失(图1) ii) 搜索区域内的相似点导致的跟踪错误(图2),例如轮廓线和马腿等。错误的点跟踪会为下一次移动提供错误的方向和约束特征,造成误差累积从而损害编辑的质量。

b56ed9744593b1a5c97118bd3844b0cc.png

图 1 DragGAN 由于相似点的存在发生错误的点跟踪

方法介绍

为了防止不稳定的点跟踪过程不可避免地损害图像编辑的质量,中国科学技术大学和上海AI Lab的研究者们共同提出FreeDrag, 一种以特征为导向的基于点的交互式编辑框架。FreeDrag通过引入自适应更新的模板特征,模糊定位和线性搜索技术,在无需进行精确点跟踪的情况下即可实现更加稳定可靠的拖动编辑。

9115a508a1c351e7d5d8b6dec670ea0a.png

图 2 FreeDrag 的流程图

0b542f5576b67a48f80710fcc84fcc15.png

图 3 DragGAN的点跟踪和FreeDrag 点定位的比较。

DragGAN 要求精确定位610de9ca2134f7f05b9fde1633de0c80.png的位置,而FreeDrag 通过约束特征差异限制定位点86649b1f5e227e0f6d6ad99010759330.pngf3ba4ae5866b74159422cb32d829941e.png附近,但不要求确定c9957cb91b2e5809e5824399e7088dd7.png的具体位置。

动态更新的模板特征

18431993ec6933c264decdcb904995de.png

研究者们首先提出了动态更新的模板特征技术来缓解跟踪点丢失问题。模板特征通过衡量每次移动的质量来决定是否更新,即通过控制b41c4edf93128b99257feadb52855a61.png的值来决定每次更新的比例。更大的37d632b154bb725451b36651d9ddf63e.png意味着更大的更新程度。移动质量越高更新程度越大。移动质量通过衡量移动结束后d3c2a4fb0df1f29f4f55898bee2c3ff3.png处的特征83b32a2dd56f168d9ee388c3b7af36a1.png和上一次的模板特征值e8128d111c4f3c8143bef68901f4e50b.png的       L1 距离 (5b405b4e07444987bfb4f2dc4438ea6f.png) 来度量,b021ad56a7976bb663445a010dac172b.png越小说明移动质量越高。模板特征的更新过程不依赖于handle point 的位置和特征,从而摆脱了对精确的点跟踪的负担,同时自适应的更新策略带来的平滑性赋予了模板特征更好的鲁棒性来克服剧烈的内容变化,避免编辑内容的异常丢失。

模糊定位和线性搜索

紧接着,研究者们提出模糊定位和线性搜索技术来缓解跟踪点模糊问题。FreeDrag 通过移动距离1cb2758dd721ff84db9d623fdf9fa3b5.png和特征差异7319e37532e44230f7a419384ac3452f.png来为每次的移动定位适合的目标点,即公式(10)。定位主要分为三种情况:继续向target point移动(移动质量高);保持当前位置不动(移动不彻底),点回退(移动异常)。

ba539b0c26f4dd15ad923a36acdc354d.png

相比于DragGAN要求的精确的点跟踪,公式(10)搜寻的定位点是“模糊”因为它并不要求搜寻handle point的准确位置,而是通过约束特征差异确保定位点在handle point附近, 因此摆脱了精确定位的负担。此外,公式(10) 只在原始handle point 和 target point 形成的直线上进行点搜索,这种线性搜索策略有效地缓解了相邻区域内相似点的干扰,保障了运动监督的可靠性,进一步提高点移动的稳定性。

实验对比

DragGAN 和 FreeDrag 在各类场景上的对比如下图(图4)所示,可以发现FreeDrag可以有效地防止handle point的异常消失(如图4第一个例子中消失的嘴巴和第二个例子中消失的眼镜),同时有力地避免了由于内容突变和相似点干扰导致的异常编辑,保障了点移动的可靠性(如图4第三个例子中大象的眼睛和第四个例子中的马腿)。此外,从图4的(5)-(8)例子可以观察到FreeDrag 可以通过稳定的点移动更有效更精确地实现预定的编辑目标。进一步的,在各类场景上的大量实验(图5) 充分验证了FreeDrag 可以通过稳定的点移动实现更高的编辑质量,助力交互式的基于点的图像编辑达到新的高度。

10e1728e319b1ff9de2888ff2157c7d5.png

图 4 DragGAN 和 FreeDrag 在各类场景上的对比图

5f6ae781faa9422aa34e69c95a697a9a.png

图 5 DragGAN 和 FreeDrag 在更多场景下的对比图

视频对比如下:

左边两张图分别为原始图片和编辑目标(红色为handle point, 蓝色为target point)

右边分别为为DragGAN 和FreeDrag的处理过程(gif)

5d1d28110f58c6d488610e4dbc8f8b0e.png

对于拖动大象眼睛的例子,可以观察到,DragGAN 在移动大象眼睛的过程中发生了图像布局的突变造成点跟踪丢失,点跟踪丢失导致无法为之后的运动提供有效的运动监督,进而无法实现预定的编辑目的。相比而言,得益于动态更新的模板特征的平滑性,FreeDrag 可以更好地避免图像内容的急剧变化,从而更可靠地将眼部特征拖向预定的位置。

对于拖动马腿的例子,可以观察到, DragGAN在移动马腿过程中发生了错误的点跟踪,从而为之后的运动监督提供了错误的优化方向,进而降低了图像质量,这种错误会在多次迭代中累计导致编辑结果质量的急剧下降。相比而言, FreeDrag 的模糊定位和线性搜索策略有效地缓解了相似点的干扰,为点移动提供了可靠的监督信号,从而高质量地实现预定的编辑目的。

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值