CVPR 2024|L-MAGIC:让图像扩散模型生成高质量360度场景!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

c1d2c83b6aebb41c69c2d56935c5e5ef.jpeg

转载自:机器之心

蔡志鹏博士(https://zhipengcai.github.io/)是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知,持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议(ECCV18*2,ICCV19,ICLR24,CVPR24)口头或特邀报告,对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。

360 度场景生成是计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。

aaa693ad7dbab88c55cae98340305364.png

图 1. 缺乏场景全局结构的先验知识导致一个卧室出现多张床,一个公园出现多个雕塑。

另一类方法将 360 度场景用一张 Equirectangular Image 来表示,并用 GAN 或扩散模型直接生成。由于该表征的局限性,这类方法通常无法有效完成 360 度闭环(如图 2 每张图片的中间部分),导致 360 度的连接处出现明显的分界线。同时由于缺少大规模训练数据,这类方法有时无法生成复合输入条件的场景。最后,这类方法通常只能接受文字作为输入。

3f9b8be5c4cd78a16b977f4c3498f27b.png

图 2. 现有方法的闭环问题.

为了解决这些问题,来自美国英特尔研究院的 Zhipeng Cai 等人提出了 L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过使用语言模型控制图像扩散模型有效实现高质量、多模态、零样本泛化的 360 度场景生成。L-MAGIC 的 live demo 已被选为英特尔公司 2024 年的 5 个技术突破之一,在 ISC HPC 2024 上展示。该论文已被 CVPR 2024 接收。

04adf39b84741a5e5bdccad3280a5e13.png

  • 项目主页:https://zhipengcai.github.io/MMPano

  • 代码:https://github.com/IntelLabs/MMPano

  • 论文地址:https://arxiv.org/pdf/2406.01843

  • Youtube 视频介绍:https://youtu.be/XDMNEzH4-Ec

  • Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html

方法概览

如图 3 所示,L-MAGIC 是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC 通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时,L-MAGIC 使用成熟的条件扩散模型如 ControlNet 从各种模态的输入(文字,手绘草图,深度图等等)生成一张自然图像。

d2d2f941d26a917ddba6171d9fbeca87.png

图 3.L-MAGIC 流程图。

在获得自然图像之后,L-MAGIC 通过 iterative warping and inpainting 来生成 360 度场景的多个视角。在每一个 iteration 中,warping step 将已生成的多视角 warp 到一个新的视角,实例中的黑色部分代表新视角中的缺失像素。Inpainting step 使用基于扩散的图像 inpainting 模型(Stable Diffusion v2)生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构,L-MAGIC 使用语言模型控制扩散模型在每个视角需要生成的场景内容。

除了生成 360 度场景的全景图,利用深度估计模型,L-MAGIC 还能够生成包含相机旋转及平移的沉浸式视频,以及场景的三维点云。由于无需微调,L-MAGIC 能够有效地保持语言及扩散模型的泛化性,实现多样化场景的高质量生成。

L-MAGIC 的核心是使用语言模型全自动地控制扩散模型。如图 4 所示若用户未提供场景的文字描述,L-MAGIC 使用视觉语言模型(如 BLIP-2)基于输入图像获得场景的整体描述(line 2)。

获得场景描述后,L-MAGIC 使用如 ChatGPT 的语言模型(开源代码已支持 ChatGPT-3.5、ChatGPT-4、Llama3),使其根据整体场景描述生成各个视角的描述(line 3),并决定对该场景是否需要防止重复物体的生成(line 5,如树林里各个视角都是树是合理的,但卧室有 5 张床就比较少见,L-MAGIC 利用大语言模型的泛化性能自适应地规避不合理的重复目标)。

由于扩散模型训练数据的 bias,有时扩散模型的输出无法完全符合语言模型的 prompt 要求。为了解决该问题,L-MAGIC 再次使用视觉语言模型监督扩散模型的输出(line 14-18),如果扩散模型的输出不符合语言模型的要求,L-MAGIC 会重新进行当前视角的生成。

a89b14bf5cb57228be47df9c7c21e244.png

图 4. L-MAGIC 算法。

实验结果

如图 5 所示,L-MAGIC 在图像到 360 度场景生成及文字到 360 度场景生成任务中均达到了 SOTA。

041dea8176df68f90ab339c715d54e4c.png

图 5. 定量实验。

如图 6 及图 7 所示,L-MAGIC 在多样的输入及场景下均能够生成具有多样化 360 度场景结构的全景图,并且能够平滑地完成 360 度闭环。

446f67a37dabc42e46aedd89fb411f1b.png

图 6. 图像到 360 度场景生成。

00e16b45f81edbb4f94acde61a4fb302.png

图 7. 文字到 360 度场景生成

如图 8 所示,除了文字及自然图像之外,L-MAGIC 还能够使用 ControlNet 接受多样化的输入,例如深度图、设计草图等。

fe838b8be6b41034ab00069ba681e41a.png

图 8. 更多不同模态的输入。

通过利用成熟的计算机视觉算法例如深度估计,L-MAGIC 还能够生成场景的沉浸式视频 (见 presentation video)以及三维点云(图 9)。有趣的是,我们能够清晰地分辨海底场景点云中鱼以及珊瑚的几何结构。

4cb02d396b0eaca1bd3cbd76f6c1d108.png

图 9. 三维点云生成结果。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值