ICCV2023

猛码Memmat

已于 2023-10-06 17:27:58 修改

阅读量363

点赞数 1

分类专栏： Memmat 文章标签： iccv

于 2023-10-06 17:21:30 首次发布

本文链接：https://blog.csdn.net/JishuFengyang/article/details/133613479

版权

Memmat 专栏收录该内容

37 篇文章 3 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

ICCV 2023在巴黎举行，揭晓最佳论文，其中马尔奖由斯坦福大学的ControlNet和多伦多大学的Passive Ultra-Wideband Single-Photon Imaging获得。ControlNet通过条件控制提升文本到图像扩散模型的效果，而被动超宽带单光子成像展示了在低光照条件下的高频率成像能力。最佳学生论文由康奈尔大学、谷歌研究院和UC伯克利合作完成，提出OmniMotion运动表征方法，实现全局一致的运动估计。

摘要由CSDN通过智能技术生成

文章目录

1. ICCV23 简介
2. 最佳论文 - 马尔奖 2篇 (Best Paper - Marr Prize)
- 2.1 Adding Conditional Control to Text-to-Image Diffusion Models
- 2.2 Passive Ultra-Wideband Single-Photon Imaging
3. 最佳学生论文奖（Best Student Paper）
4. 最佳论文荣誉提名奖（Best Paper Honorable Mention）
5. 其他获奖奖项
Reference

1. ICCV23 简介

ICCV 2023 全部奖项已经公布，有两篇获得最佳论文，一篇来自斯坦福大学的研究者的ControlNet获得 ICCV 2023 马尔奖（最佳论文）；另一篇来自多伦多大学。最佳学生论文奖由康奈尔大学、谷歌研究院和 UC 伯克利的研究者获得。大名鼎鼎的“Segment Anything”获得最佳论文提名

在这里插入图片描述

2023年度计算机视觉国际大会（International Conference on Computer Vision, ICCV）10月2日至6日在法国巴黎举行。ICCV是计算机领域世界顶级的学术会议之一，与CVPR、ECCV并称计算机视觉三大顶会，每两年举办一次。会议上将颁发最佳论文奖（Marr Prize）和最佳论文提名奖。

今年7月，ICCV公布本届大会论文收录结果，共计2160篇论文入选。在开源社区HuggingFace已展示的1142篇入选论文中，50篇论文涉及的研究成果基于OpenMMLab系算法库产生。

在这里插入图片描述

在今天的开幕式上，ICCV 官方公布了今年的论文数据：本届 ICCV 投稿总数达 8068 篇，其中 2160 篇被接收，录用率为 26.8%，略高于上一届 ICCV 2021 录用率 25.9%。

在这里插入图片描述

在这里插入图片描述
在论文主题方面，官方也公布了相关数据：3D from multi-view and sensors 热度最高。

2. 最佳论文 - 马尔奖 2篇 (Best Paper - Marr Prize)

2.1 Adding Conditional Control to Text-to-Image Diffusion Models

一篇来自斯坦福大学的研究者获得 ICCV 2023 马尔奖（最佳论文）。

获奖论文：Adding Conditional Control to Text-to-Image Diffusion Models
论文地址: https://www.zhuanzhi.ai/paper/3a26f5f6c78d2f3b70f01e08abfcc35e
https://arxiv.org/pdf/2302.05543.pdf
作者机构：斯坦福大学

项目地址：https://github.com/lllyasviel/ControlNet

在这里插入图片描述
摘要：本文提出了一种端到端的神经网络架构 ControlNet，该架构可以通过添加额外条件来控制扩散模型（如 Stable Diffusion），从而改善图生图效果，并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型（如 Stable Diffusion），从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

这里的额外条件以图像的形式来输入，模型可以基于这张输入图像进行 Canny 边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测（HED）、人体姿态识别等，然后在生成的图像中保留这些信息。利用这一模型，我们可以直接把线稿或涂鸦转换成全彩图，生成具有同样深度结构的图等等，通过手部关键点还能优化人物手部的生成。

在这里插入图片描述

另一版本

在这里插入图片描述

本文提出了一种神经网络结构ControlNet，用于控制预训练大型扩散模型，以支持额外的输入条件。ControlNet以端到端的方式学习特定任务的条件，即使训练数据集很小（<50k），学习也很稳健。此外，训练ControlNet的速度与微调扩散模型一样快，而且该模型可以在个人设备上进行训练。或者，如果可以使用强大的计算集群，模型可以扩展到大量（从百万到数十亿）的数据。我们报告，像Stable Diffusion这样的大型扩散模型可以通过ControlNets来增强，以实现边缘图、分割图、关键点等条件输入。这可能会丰富这些方法，以控制大型扩散模型，并进一步促进相关应用。 ControlNet是通过使用特定任务条件增强预训练图像扩散模型的一种神经网络结构。

在这里插入图片描述

2.2 Passive Ultra-Wideband Single-Photon Imaging

被动超宽带单光子成像

获奖论文：Passive Ultra-Wideband Single-Photon Imaging
作者机构：多伦多大学
论文地址：https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

在这里插入图片描述

我们考虑如何在极端的时间范围内同时对动态场景进行成像—从秒到皮秒—并且这样做是被动的，光线不多，且不需要来自发光源的任何时间信号。因为现有的单光子相机的光束估计技术在这个范围内失效，我们开发了一种光束探测理论，该理论从随机微积分中得到启示，以实现从单调递增的光子检测时间戳中重建像素的时间变化光束。我们使用这个理论来 (1) 显示在低光束条件下，被动自由运行的SPAD相机具有可达到的频率带宽，该带宽跨越整个直流到31 GHz范围，(2) 推导出一个新颖的傅里叶域光束重建算法，该算法扫描此范围以寻找时间戳数据中具有统计显著支持的频率，以及 (3) 确保即使对于非常低的光子计数或不可忽略的死亡时间，算法的噪声模型仍然有效。通过实验证明了这种异步成像模式的潜力，展示了一些前所未见的能力：(1) 同时由在极其不同速度下运行的发光源（如灯泡、投影机、多个脉冲激光器）照亮的场景进行成像，而不需要同步，(2) 被动非视线视频采集，以及 (3) 录制超宽带视频，稍后可以以30 Hz的速度回放，以显示日常动作—但也可以放慢十亿倍速度以显示光的传播本身。

在这里插入图片描述

3. 最佳学生论文奖（Best Student Paper）

该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成。他们联合提出了一种完整且全局一致的运动表征 OmniMotion，并提出一种新的测试时（test-time）优化方法，对视频中每个像素进行准确、完整的运动估计。

在这里插入图片描述

论文地址：https://arxiv.org/abs/2306.05422

项目主页：https://omnimotion.github.io/

在这里插入图片描述

在计算机视觉领域，常用的运动估计方法有两种：稀疏特征追踪和密集光流。但这两种方法各有缺点，稀疏特征追踪不能建模所有像素的运动；密集光流无法长时间捕获运动轨迹。

该研究提出的 OmniMotion 使用 quasi-3D 规范体积来表征视频，并通过局部空间和规范空间之间的双射（bijection）对每个像素进行追踪。这种表征能够保证全局一致性，即使在物体被遮挡的情况下也能进行运动追踪，并对相机和物体运动的任何组合进行建模。该研究通过实验表明所提方法大大优于现有 SOTA 方法。

在这里插入图片描述