ICLR 2025 | 谷歌&港大提出SVG：基于扩散模型的双目视频生成-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

论文：https://arxiv.org/abs/2407.00367

主页：

https://daipengwa.github.io/SVG_ProjectPage/

图1：图像矩阵以及生成的时间/空间维度视频

研究背景：

1）VR设备的发展需要大量的虚拟现实内容来支撑，比如双目视频。然而，尽管互联网上单目视频资源丰富，双目视频却相对稀缺。

2）视频生成模型，例如Sora, 能够生成高质量、逼真的单目视频内容，展现了生成式人工智能在视频创作领域的巨大潜力。然而，现有视频模型聚焦于单目视频的生成，双目/多视角视频生成领域仍处于探索的初期阶段。

鉴于此，香港大学与谷歌的研究团队首次探索并提出了基于扩散模型的双目视频生成框架，无需额外训练即可生成高质量的双目视频。

方法设计：

给定文本描述，该工作利用单目视频生成模型生成一段视频，或者直接以相机拍摄的单目视频作为起始视角（左视角）；然后利用深度估计将左视角视频投影到目标视角下（右视角），并通过视频填充的方案来获取右视角下的完整视频。该工作主要解决填充过程中的视角语义一致性以及边缘处瑕疵来获取高质量双目视频生成结果。

1）基于投影和填充的新视角视频合成

如图2所示，利用估计的视频深度信息，左视角视频被投影到目标视角下，从而产生带有未知区域的右视角视频。为获取完整的右视角视频，该工作利用预训练视频生成模型对未知区域进行填充，并保留已知区域的内容。在实践中，该工作发现独立地对右视角视频进行填充会引入视角语义不一致性的问题，如图3中的马头所示。这是由于未知区域的填充存在无限的可能性，但并非所有填充结果都符合语义一致性或视觉合理性。

图2: 基于预训练视频生成模型的新视角视频合成方案

图3: 左右视角缺乏语义一致性

2）基于图像矩阵的新视角视频合成

为增强左右视角之间的语义关联性，该研究提出一种图像矩阵的表示方法。如图4所示，该方法通过在左右视角之间插入多个虚拟相机来构建一个连续的视角过渡空间；该图像矩阵不仅包含时间维度（每一列），同时引入空间维度（每一行）来关联左右视角。相较于图2的单视角视频填充，图像矩阵同时进行时间和空间维度的填充可以生成更加合理的结果，如图5所示。该工作的核心任务是双目视频生成，因此仅提取图像矩阵最左和最右两列作为输出。当输出整个图像矩阵时，可产生多视角视频生成结果。

图4: 基于图像矩阵的新视角视频合成方案

图5: 基于图像矩阵的新视角视频生成方法提升生成视频与原始视频之间的语义一致性

3）边缘特征重注入

在基于隐空间架构的视频生成模型中，原视频需经过降采样并压缩至隐空间中进行处理。然而，在视频填充任务中，降采样过程会导致未知区域向已知区域渗透，从而导致未知区域与已知区域交界处的特征（latent feature）质量显著降低，最终体现为重建视频中存在明显的视觉瑕疵，如图7左侧所示。针对这一问题，该研究提出一种边界特征重注入的方案，如图6所示：通过在图像空间中将未知区域替换为预测的内容，并重新对图像进行降采样操作，进而实现对交界处特征的更新。如图7右侧所示，该方案能够有效地效祛瑕疵。

图6: 边界特征重新注入方案

图7: 有无边缘特征重新注入的结果比较

结果展示

该研究通过与动态场景视角合成方法（图8第一行）和视频填充方法（图8第二行）进行对比实验，验证了其在生成效果上的优势。具体而言，动态场景视角合成方法由于缺乏生成能力，无法有效填充被遮挡区域，同时高度依赖精确的相机参数估计，而这在动态场景中极具挑战性，导致生成结果存在明显的空洞和失真。另一方面，现有的视频填充方法虽然能够生成完整画面，但往往产生质量较低且模糊的结果。此外，图9展示多视角视频生成的实验结果。

图8: 与动态场景新视角合成方法以及视频填充方法的比较

图9: 多视角视频生成

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看