CVPR2024最佳论文出炉！历年CVPR最佳论文盘点（2000 年—2024 年）

沃恩智慧

已于 2024-07-11 16:22:52 修改

阅读量1.6k

点赞数 10

分类专栏：深度学习人工智能 CVPR 文章标签：人工智能论文阅读深度学习

于 2024-07-11 14:58:21 首次发布

本文链接：https://blog.csdn.net/m0_73122726/article/details/140351209

版权

深度学习同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

人工智能

2 篇文章 0 订阅

订阅专栏

CVPR

1 篇文章 0 订阅

订阅专栏

cvpr2024最佳论文出炉，本次论文可谓是万里挑一。

作为计算机视觉领域的顶级学术会议CVPR，每年评选出的一篇或多篇最佳论文，不仅为计算机视觉领域的顶级学术荣誉，更代表了将对未来技术或行业发展产生重要影响的里程碑式研究成果。

为了帮助大家对这批计算机领域的重要论文进行复习，沃恩智慧为大家精心整理了一份从 2000 年—2024 年的 CVPR 最佳论文盘点。

需要的同学关注公众号【沃的顶会】，回复“CVPR”即可全部领取！

2024年最佳论文列表

2024最佳论文入选的24篇上次已经详细介绍过了，在这就不一一介绍了，感兴趣的同学可以点击复习→2024最佳论文24篇大盘点

2024

Generative Image Dynamics

通过反馈改进Stable Diffusion等文生图模型

内容概述：作者提出了一种从单张静态图片中建模自然振荡动态效果的新方法。该方法能够从单张图片生成照片般真实的动画，并显著优于现有的基准方法。此外，他们还展示了在多个后续应用中的潜力，例如创建无缝循环或交互式图像动态效果。

2024

Rich Human Feedback for Text-to-Image Generation

基于图像空间先验的场景运动建模方法

内容概述：作者提出了第一个详尽的用于图像生成的人类反馈数据集。具体来说，他们设计并训练了一个多模态Transformer来预测这些详尽的人类反馈，并展示了一些改进图像生成的实例。

2023

Planning-oriented Autonomous Driving

内容概述：该论文引入了统一自主驱动（UniAD），这是一个最新的综合框架，将全栈驱动任务整合到一个网络中。它经过精心设计，可以利用每个模块的优势，并从全局角度为代理交互提供补充的特征抽象。任务通过统一的查询接口进行通信，以便于彼此进行规划。我们根据具有挑战性的nuScenes基准来实例化UniAD。通过广泛的消融，使用这种理念的有效性在各个方面都大大超过了以前的先进水平。

2022

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

基于单张图像估计物体在 3D 空间中的位姿

内容概述：该论文我们提出了EPro-PnP，这是一个用于一般端到端姿势估计的概率PnP层，它输出SE（3）流形上的姿势分布，本质上是将类别Softmax带到连续域。通过最小化预测姿态分布和目标姿态分布之间的KL散度，将2D-3D坐标和相应的权重作为中间变量进行学习。基本原则统一了现有的方法，并类似于注意机制。EPro-PnP显著优于竞争基线，缩小了基于PnP的方法与LineMOD 6DoF姿势估计和nuScenes 3D对象检测基准上的特定任务领导者之间的差距。

2021

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

论文概述：该论文提出关键假设是，将组合式三维场景表示纳入生成模型，可以使图像合成更加可控。将场景表示为生成性神经特征场，使我们能够从背景中分离出一个或多个物体，以及单个物体的形状和外观，同时无需任何额外的监督就能从非结构化和unposed的图像集中学习。将这种场景表示与神经渲染管道结合起来，可以产生一个快速而真实的图像合成模型。正如我们的实验所证明的那样，我们的模型能够分解单个物体，并允许在场景中平移和旋转它们，还可以改变摄像机的姿势。

需要的同学关注公众号【沃的顶会】，回复“CVPR”即可全部领取！

2020

Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

最佳论文主要内容这项研究提出了一种基于原始单目图像学习 3D 可变形物体类别的新方法，且无需外部监督。

2019

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

最佳论文提出了一个新的理论，即在一个已知的可见场景和一个不在瞬态相机视线范围内的未知物体之间的 Fermat path。证明费马路径对应于瞬态测量中的不连续性。然后，我们推导出一种新的约束，它将这些不连续处的路径长度的空间导数与表面法线相关联。还提出了一种名为 Fermat Flow 的算法来估计非视距物体的形状。我们的方法首次允许复杂对象的精确形状恢复，范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。

2018

Taskonomy: Disentangling Task Transfer Learning

任务学：任务迁移学习的解耦

最佳论文研究了一个非常新颖的课题，那就是研究视觉任务之间的关系，根据得出的关系可以帮助在不同任务之间做迁移学习。该论文提出了「Taskonomy」——一种完全计算化的方法，可以量化计算大量任务之间的关系，从它们之间提出统一的结构，并把它作为迁移学习的模型。

2017

Densely Connected Convolutional Networks

密集连接的卷积网络

卷积网络中离输入更近或者离输出更近的层之间的连接更短，网络就基本上可以更深、更准确，训练时也更高效。这篇论文就对这种进行了深入的研究，并提出了密集卷积网络（DenseNet），其中的每一层都和它之后的每一层做前馈连接。对于以往的卷积神经网络，网络中的每一层都和其后的层连接，L 层的网络中就具有 L 个连接；而在 DenseNet 中，直接连接的总数则是 L(L+1)/2 个。对每一层来说，它之前的所有的层的 feature-map 都作为了它的输入，然后它自己的 feature-map 则会作为所有它之后的层的输入。（因篇幅有限，仅展示最佳论文其一）

2016

Deep Residual Learning for Image Recognition

图像识别的深度残差学习

核心内容：该论文提出了一种减轻网络训练负担的残差学习框架，这种网络比以前使用过的网络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数，而不是学习未知的函数。同时，我们提供了全面实验数据，这些数据证明残差网络更容易优化，并且可以从深度增加中大大提高精度。深度剩余网络是我们提交给 ILSVRC 和 COCO2015 竞赛的基础，而且在 ImageNet 检测任务，ImageNet 定位，COCO 检测和 COCO 分割等领域赢我们获得了第一。

需要的同学关注公众号【沃的顶会】，回复“CVPR”即可全部领取！

2015

DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time

动态融合：实时非刚性场景的重建与跟踪

核心内容：作者提出第一个结合商用传感器对 RGBD 扫描结果进行捕获，该结果可实时重建非刚性变形场景的密集 SLAM 系统。被称作 DynamicFusion 的这种方法在重建场景几何的当儿，还能同时估算一个密集体积的 6D 运动场景，并将估算结果变成实时框架。与 KinectFusion 一样，该系统可以生成越来越多去噪、保留细节、结合多种测量的完整重建结果，并实时显示最新的模型。由于该方法无需基于任何模板或过往的场景模型，因此适用于大部分的移动物体和场景。

2014

What Object Motion Reveals About Shape With Unknown BRDF and Lighting

核心内容：作者提出了一种理论，用于解决在未知远距离照明以及未知各向同性反射率下，运动物体的形状识别问题，无论是正交投影还是穿透投影。该理论对表面重建硬度增加了基本限制，与涉及的方法无关。在正交投影场景下，三个微分运动在不计 BRDF 和光照的情况下，可以产生一个将形状与图像导数联系起来的不变量。

2013

Fast, Accurate Detection of 100,000 Object Classes on a Single Machine

在单个机器上快速、准确地对100,000个物体类别进行检测

核心内容：作者利用局部敏感散列这点，将卷积中的点积内核运算符替换为固定数量的散列探测器，这些探测器可以在无视滤波器组大小情况下，及时、有效地对所有滤波器响应进行采样。

2012

A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization

一个针对基于活动分解非刚性结构的简单、无先验方法

核心内容：作者提出一种简单的「无先验」方法来解决非刚性结构的运动因子分解问题。除了基本的低秩条之外，该方法无需任何关于非刚性场景或相机运动的先验知识。即便如此，它依然得以稳定运行，并产生最佳结果，且不受许多传统非刚性分解技术的基础 - 模糊性问题（basis-ambiguity issue）困扰。

2011

Real-Time Human Pose Recognition in Parts from Single Depth Images

针对单个深度图像部件的实时人体姿态识别模型

核心内容：作者提出一种可以基于无时间信息从单个深度图像中快速、准确预测身体关节 3D 位置的方法。通过采用物体识别方法设计出身体部位的间接表示，进而将有难度的姿势估计问题映射为简单的每像素分类问题。

需要的同学关注公众号【沃的顶会】，回复“CVPR”即可全部领取！

2010

Efficient Computation of Robust Low-Rank Matrix Approximations in thePresence of Missing Data using the L1 Norm

利用L1范数对数据缺失的鲁棒低秩近似矩阵进行有效计算

核心内容：论文提出了一种计算矩阵的低秩分解法，一旦丢失数据时会主动最小化 L1 范数。该方法是 Wiberg 算法的代表——在 L2 规范下更具说服力的分解方法之一。通过利用线性程序的可区分性，可以对这种方法的基本思想进行扩展，进而包含 L1 问题。结果表明，现有的优化软件可以有效实现论文提出的算法。论文提供了令人信服、基于合成与现实数据的初步实验结果。

2009

Single Image Haze Removal Using Dark Channel Prior

暗通道先验去雾法

核心内容：本文中提出了一个简单却有效、针对单个输入图像的暗通道去雾法。暗通道先验去雾法是一种户外去雾图像的统计方法，它主要基于一个关键的观察——室外无雾图像中的大多数局部斑块包含一些像素，这些像素的强度起码有一个颜色通道处于低状态。使用这种基于雾度成像模型的先验方法，我们可以直接估计图像的雾霾厚度，借此将图像恢复至高质量的无雾状态。各种模糊图像的去雾结果证明了论文所提出先验方法的成效。此外，我们可以通过该方法获得高质量的深度图。

2008

Global Stereo Reconstruction under Second Order Smoothness Priors

二阶平滑先验下的全局立体重建

核心内容：本文表明三重集的推理可以获得有效的优化。作者提出的优化策略是基于 α 扩展的最新研究结果，源自「QPBO」算法。该策略通过 QPBO 算法的最新扩展对提议深度图进行重复合并。对于提案深度图的来源并不受局限，比如可以是α扩展的前平行平面，亦或者带有任意参数设置的实际立体算法。最终实验结果证明了二阶先验法以及框架优化策略的有效性。

2007

Dynamic 3D Scene Analysis from a Moving Vehicle

在移动工具中进行动态三维场景分析

核心内容：论文提出一个集成了全自动场景几何估计、2D 物体检测、3D 定位、轨迹估计和跟踪功能的系统，以用于分析移动工具的动态场景。该系统的唯一输入来源是汽车顶部经过校准的立体装置。从这些视频流中，我们得以实时估计 Structurefrom-Motion（SfM）和场景几何。与此同时，作者还试图执行多视图/多类别对象识别，以检测摄像里的汽车和行人。

2006

Putting Objects in Perspective

在透视场景中放置物体

核心内容：图像理解不仅需要考虑视觉世界中的元素，还需要考虑这些元素之间的相互作用。本文提出了一个在 3D 场景语境中进行局部对象检测的框架，该框架主要基于物体、表面方向以及摄像机视点的相互作用。

大多数物体检测方法会考虑图像的比例和位置。通过对 3D 几何进行概率预估（包括表面以及世界坐标），我们可以将物体放置在透视图中，进而对图像的比例和位置变化进行建模。该方法通过对物体概率进行假设以细化几何，借此反映问题的周期性，反之亦然。该框架允许任意物体探测器进行「无痛」替换，且便于扩展至包括图像理解在内的其他方面。最终实验结果证实该综合方法的优势。

需要的同学关注公众号【沃的顶会】，回复“CVPR”即可全部领取！

2005

Real-Time Non-Rigid Surface Detection

实时非刚性表面检测

核心内容：论文提出一种无需任何先验知识、可实时检测变形表面的方法。该方法从一组宽基线点开始，在物体未变形图像及检测图像之间进行匹配。该匹配不仅可用于检测，同时还可以用来计算点与点之间的精确映射。该算法在面对严重变形、光照变化、运动模糊以及遮挡问题时具有鲁棒性。它在 2.8 GHz 的 PC 上以每秒 10 帧的速度运行，据作者了解，尚未有其他产生类似结果的技术。

2004

Programmable Imaging using a Digital Micromirror Array

使用电子微镜阵列实现可编程的图像创建

核心内容：论文介绍了可编程成像系统的概念。该成像系统为人类或视觉系统提供了对系统辐射度与几何特征的控制方法。该灵活性是通过可编程微镜阵列才得以实现的。我们可以通过把控空间和时间上的高精度来控制阵列方向，使得系统可以根据应用需要来灵活选择并调制光线。

2003

Object Class Recognition by Unsupervised Scale-Invariant Learning

使用尺度无关的无监督学习实现物体类型识别

核心内容：论文提出一种通过尺度不变方法（scale invariant manner）从未标记、未分段的杂乱场景中学习并识别物体类模型的方法。这些物体被建模成灵活性的系列部件。概率表示方法被用于识别物体的所有方面，包括形状、外观、遮挡物以及相对比例。

2002

Learning to Solve Hard Minimal Problems

核心内容：该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化（relax）为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。

2001

视频中的形变三维模型

Morphable 3D models from video

核心内容：我们通过等级约束、范数约束以及强度值来解决这两个问题，进而产生针对不确定性 SVD、不确定性分解、非刚性因子分解以及子空间光流的全新解决方案。最终获得的集成算法可以跟踪以及进行 3D 重建具有细小纹理的非刚性表面，比如具有平滑部分的面部。通过结合低分辨率低纹理的「视频发现」，这些方法可以产生良好的跟踪与 3D 重建结果。

2000

运用均值漂移实现对非刚性物体的实时追踪

Real-Time Tracking of Non-Rigid Objects using Mean Shift

核心内容：论文提出一种可以从移动摄像机实时追踪非刚性物体的全新方法。中央计算模块将基于均值漂移以及当前帧中的目标可能位置进行运算。目标模型（颜色分布）与目标候选者之间的差异由 Bhattacharyya 系数进行表示。该方法的理论分析表明，它与贝叶斯框架息息相关，同时提供了实用、快速且有效的解决方案。针对多个图像序列的演示结果，展示了该方法跟踪并处理实时部分遮挡、显着杂波以及目标比例变化的能力。

需要的同学关注公众号【沃的顶会】，回复“CVPR”即可全部领取！