点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?
这篇文章引入了SwapAnything,这是一个利用预训练扩散模型简化个性化任意对象交换的框架。 与以前的工作不同,SwapAnything旨在进行任意交换任务,实现完美的上下文像素保留和和谐的对象过渡。SwapAnything始于在扩散模型上探索源图像的信息性表示,发现扩散过程中的各种变量,特别是来自U-net的潜在特征与图像具有对应关系。因此,作者提出通过在交换过程中保留这些变量中的对应部分来保持源图像中的上下文像素。该过程旨在精确交换特定区域,确保其他对象和背景的完整性。源图像中的对象信息也被选择用于外观适应。更具体地说,位置适应控制新概念应该交换的位置。样式适应确保概念对象与原始图像之间的风格和谐,促进自然和连贯的视觉呈现。此外,引入了比例适应来调节目标对象的形状,确保其与源图像的空间和尺寸方面的一致性。最后,内容适应对于平滑生成新概念至关重要,实现了无缝融合,减轻了任何伪影或不自然的过渡。通过这些专门的适应措施,SwapAnything在以对象驱动的图像内容交换领域提供了更高水平的精度和精细度。
下面一起来阅读一下这项工作~
1. 论文信息
标题:SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing
作者:Jing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang
机构:加州大学、Adobe
原文链接:http://arxiv.org/abs/2404.05717
代码链接:https://github.com/eric-ai-lab/swap-anything
官方主页:https://swap-anything.github.io/
2. 摘要
有效编辑个人内容在使个人能够表达他们的创造力、在视觉故事中编织引人入胜的叙述,并提升视觉内容的整体质量和影响方面起着关键作用。因此,在这项工作中,我们介绍了SwapAnything,这是一个新颖的框架,可以根据参考给出的个性化概念,将图像中的任何对象进行交换,同时保持上下文不变。与现有的个性化主题交换方法相比,SwapAnything具有三个独特的优点:(1)精确控制任意对象和部分,而不是主题,(2)更忠实地保留上下文像素,(3)更好地将个性化概念适应于图像。首先,我们提出了有针对性的可变交换,通过对潜在特征图进行区域控制,并交换掩码变量以保留忠实的上下文,并进行初始语义概念交换。然后,我们引入外观适应,以在图像生成过程中将语义概念无缝地适应到原始图像中,包括目标位置、形状、风格和内容。人类和自动评估的广泛结果表明,我们的方法在个性化交换方面显著优于基线方法。此外,SwapAnything在单个对象、多个对象、部分对象和跨领域交换任务中展示了其精确和忠实的交换能力。SwapAnything在基于文本的交换以及超出交换范围的任务(如对象插入)上也取得了很好的性能。
3. 效果展示
SwapAnything可以实现各种个性化图像交换任务。SwapAnything擅长在具有个性化参考的源图像中进行精确的、任意的对象替换,并在不影响任何上下文像素的情况下实现高保真的交换结果,展示了其在单对象、多对象、部分对象和跨域交换任务中的一般效果。

4. 主要贡献
(1)提出了SwapAnything,这是一个通用框架,旨在进行个性化交换和基于文本的交换,适用于单个对象、多个对象、部分对象和跨领域对象。
(2)确定了内容保留的关键变量,并提出了针对完美背景保留的有针对性的交换。
(3)设计了一个复杂的外观适应过程,将概念图像适应到源对象中。
(4)通过全面的定性评估和定量分析,在交换任务和超越交换的任务(如插入)中展现了卓越的性能。
5. 具体原理是啥?
SwapAnything概述将一个对象从源图像( Isrc )交换到一个个性化的概念以得到目标图像( Itarget )。个性化的概念首先被转换到文本空间,作为概念的外观。同时,首先将源图像反演为初始噪声,得到U - Net变量(包括潜在特征、注意力图和注意力输出)。有针对性的变量交换保留了源图像中的上下文像素。然后,外观适应过程利用这些信息变量将概念整合到目标图像中。

SwapAnything中的交换过程。左半部分显示了潜在特征z和生成图像之间的对应关系。右半部分展示了U - Net扩散过程中目标变量的操作过程。

6. 实验结果
单目标交换结果。

多目标交换结果。

部分对象交换结果。

跨域交换结果。

人类评估结果。

7. 总结 & 未来工作
总之,SwapAnything代表了对象交换领域的重大突破。在扩散模型中交换潜在特征和注意力变量,保证了生成图像中关键信息的保留。通过有针对性的操作,SwapAnything实现了完美的背景保存。此外,SwapAnything还引入了一个复杂的外观适应过程,旨在将概念无缝地集成到源图像的上下文中。因此,SwapAnything能够处理各种各样的对象交换挑战。在未来,作者计划将我们的框架扩展到3D /视频个性化对象交换任务中。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
图片 | 说明 | 名称 |
---|---|---|
![]() | 硬件+源码+视频教程 | 精迅V1(科研级))单目/双目3D结构光扫描仪 |
![]() | 硬件+源码+视频教程 | 深迅V13D线结构光三维扫描仪 |
![]() | 硬件+源码+视频教程 | 御风250无人机(基于PX4) |
![]() | 硬件+源码 | 工坊智能ROS小车 |
![]() | 配套标定源码 | 高精度标定板(玻璃or大理石) |
添加微信:cv3d007或者QYong2014 咨询更多 |
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~