CVPR 近5年最佳论文汇总,最新热门研究方向有这些

文章回顾了近五年CVPR会议的最佳论文,涵盖了视觉编程、自动驾驶、新视点合成、3D配准、文本到图像生成等多个领域的创新。最佳论文包括使用神经符号方法解决复杂视觉任务的VISPROG框架,提出统一自动驾驶框架UniAD,以及3D点云配准和文本到图像模型个性化方法。此外,还涉及了无监督学习、动作捕捉和非视线形状重建等技术的应用。
摘要由CSDN通过智能技术生成

6月刚结束的CVPR会议大家关注了吗?不得不说真的是神仙打架。我拜读了一下,今年的best paper质量依然炸裂,能从这么多优质论文中脱颖而出,用“万里挑一”形容一点也不过分。

作为计算机视觉领域最具影响力的会议之一,CVPR往年的最佳论文也都非常有研究价值,所以今天我整理了近5年CVPR的最佳论文(2019-2023)来和大家分享。

资料已打包,文末领取

​CVPR 2023

Best Paper 最佳论文奖

1.Visual Programming: Compositional visual reasoning without training

这篇最佳论文我昨天就做过详细解析看这篇了解。

总的来说,这篇文章提出了一种基于神经符号方法的框架VISPROG,它可以根据自然语言指令解决复杂的视觉任务。作者相信这是一个使AI系统覆盖更多复杂任务的有趣方式。

2.Planning-oriented Autonomous Driving

这篇论文提出了UniAD框架,用于解决自动驾驶任务。

现代自动驾驶系统通过车辆感知、预测和规划这三个模块实现。当前方法要么使用单独模型来实现每个任务,要么设计多任务学习来分离不同子任务。但是它们可能会经受累积错误或任务协调不足。

作者认为应该设计一个框架来实现最终目标:自动驾驶规划。根据这个观点,研究者重新审视感知和预测模块,并将任务优先级设置为实现规划,提出了UniAD框架,能够将完整的驾驶任务集成到一个网络中。

UniAD设计利用每个模块的优势,并提供全局视角下的特征抽象来促进 agent 交互。任务通过统一的查询接口交流,相互促进来实现规划。实验表明,该框架的理念能够显著超越先前的先进水平。

Honorable Mention 最佳论文荣誉提名奖

3.DynIBaR: Neural Dynamic Image-Based Rendering

这篇论文提出了一种方法来从单目视频中合成新视点。

当前基于时变 Neural Radiance Fields (动态 NeRF) 的方法在这个任务上表现出令人印象深刻的效果。但是对于长视频和复杂的对象运动和无控制的相机轨迹,这些方法会产生模糊或不准确的渲染,阻碍了它们在实际应用中的使用。

该研究提出的解决方法不是将整个动态场景编码到 MLPs 的权重中,相反,它采用基于图像的渲染框架,通过聚合场景运动感知的附近视图中的特征,来合成新视点。这个系统保留了先前方法在建模复杂场景和视角依赖效果方面的优势,但也能够从具有复杂场景动力学和无限制相机轨迹的长视频中合成真实感高的新视图。实验表明,在动态场景数据集上显著优于目前状态齐进方法。

Best Student Paper 最佳学生论文奖

4.3D Registration with Maximal Cliques

这篇论文提出了一种基于最大种群的3D点云配准方法。

3D点云配准是一个基础计算机视觉问题,它旨在搜索对准点云对的 optimal pose。作者提出了一种基于最大种群的3D配准方法,灵感来自放宽前最大种群约束,并在图中挖掘更多局部一致信息来生成 pose假设。

首先构建了一个兼容性图来表示初步对应关系之间的亲和关系,然后搜索最大种群,每个种群代表一个一致集。然后执行基于节点的种群选择,每个节点对应图权重最大的最大种群。对于选择的种群,使用SVD算法计算转换假设,并使用最佳假设进行配准。

实验表明方法显着提高了配准准确性,超过了多种最新方法,并提高了深度学习方法的效果。在3DMatch/3DLoMatch数据集上,配合深度学习方法实现了95.7%/78.9%的配准召回率

Honorable Mention (Student) 最佳学生论文荣誉提名奖

5.DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

被引用260次

这篇文章提出一种 personalize 大规模文本到图像模型的方法。

大规模文本到图像模型在AI进化中取得了令人难以置信的进步,能够从给定的文本生成高质量且多样性的图像。然而,这些模型缺乏模仿给定参考集中主体外观并在不同上下文中生成新版画的能力。

在这项工作中,研究者提出了一种 personalize 文本到图像蒸镀模型的新方法。只需要少量主体图像作为输入,研究者能够微调预训练的文本到图像模型,使之能够与特定主体绑定独一无二的标识符。一旦主体映射到模型的输出域,独一无二的标识符即可用于生成主体在不同场景下的真实感图像。通过利用模型内置的语义先验与新的自伴生类特定先验保真损失,研究者的技术能够在参考图像中未出现过的场景、姿势、视角和照明条件下生成主体。研究者将这种技术应用于多个之前不可能完成的任务,包括主体再上下文化、文本指导视图合成以及艺术渲染,同时保留主体的关键特征。作者还提供了一个新的数据集和评价协议来评价这一主体驱动生成新任务。

CVPR 2022

Best Paper 最佳论文奖

1.Learning to Solve Hard Minimal Problems

作者提出一种在RANSAC框架下有效解决几何优化问题的方法,设计了一个学习策略来选择起始问题-解决方案配对,并通过实现RANSAC求解器来解决三个校准相机的相对姿态问题来展示他们的方法。

Honorable Mention 最佳论文荣誉提名奖

2.Dual-Shutter Optical Vibration Sensing

作者提出一种新的高速视觉振动计方法,方法使用两个不同快门类型的相机同时捕获场景,从而实现高达63kHz的感知速度。

Best Student Paper 最佳学生论文奖

3.EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

这篇论文提出了一个概率化的PnP方法,将Softmax带入连续域,并通过学习2D-3D点的分布来解决定向3D对象的问题。实验表明方法提升了姿态估计的效果。

Honorable Mention (Student)最佳学生论文荣誉提名奖

4.Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

被引用114次

作者提出了Ref-NeRF来解决NeRF在反射表面表现不佳的问题。Ref-NeRF使用反射辐射表示与基于场景属性的函数,而不是NeRF使用的参数化视图依赖辐射。实验表明Ref-NeRF改进了场景中反射表面外观的真实性和精度。

CVPR 2021

Best Paper 最佳论文奖

1.GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

被引用517次

作者通过将组成性3D场景表示纳入生成模型,实现了更可控的图像合成。实验结果表明,该模型能够有效解耦单个物体,并且具有很高的可控性。

Honorable Mention 最佳论文荣誉提名奖

2.Exploring Simple Siamese Representation Learning

被引用2296次

这篇论文发现简单的Siamese网络就可以学习有意义的表示,而不需要一些常见的假设。作者指出停止梯度操作起着关键作用,并提供了实验验证其假设。

实验表明:

  • 简单的Siamese网络可以学习有意义的表示

  • 停止梯度操作可以防止劣解

  • "SimSiam"方法取得与SOTA同样结果

  • 这简单的基准可以让人重新思考Siamese在无监督表示学习中的作用

3.Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

这篇论文利用社交视频的动态信息来补充缺少的ground truth,进而学习穿着人体更精细的几何信息。提出的端到端方法能生成高保真深度估计。

Best Student Paper 最佳学生论文奖

4.Task Programming: Learning Data Efficient Behavior Representations

这篇文章提出了一种通过多任务自监督学习来高效学习嵌入的方法,以减少行为分析领域专家的标注工作量。作者通过"任务编程"这一过程来有效构建任务,同时证明可以大大减少专家工作量。

Honorable Mention (Student) 最佳学生论文荣誉提名奖

5.Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

被引用355次

这篇文章总结了ClipBERT框架,它通过稀疏采样实现视频和语言任务的端到端学习。从而超越使用全长视频离线特征的方法。实验表明少量与稀疏采样帧往往比密集全长视频特征更准确。

6.Binary TTC: A Temporal Geofence for Autonomous Navigation

概述了一种快速估计时至撞击(TTC)的新方法。作者通过一系列二值分类来近似TTC,使其可以在6.4ms的低延迟下提供临界撞击时间,足以在实时中用于路径规划。

7.Real-Time High-Resolution Background Matting

被引用122次

这篇论文提出了一种实时高分辨率的背景替换技术,这种技术可以实现4K下30fps、HD下60fps的实时高分辨率背景替换。它利用两个神经网络计算高质量alpha抠图,并考虑保留毛发细节。作者同时提出两个大规模的视频和图像抠图数据集用来训练模型。实验证明该方法效果优于先前技术,同时在速度和分辨率方面有显著提升。

CVPR 2020

Best Paper 最佳论文奖

1.Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

被引用244次

论文总结了一种从单视图图像无监督学习3D可变形物体类别的方法,这种方法利用了物体对称性这一先验,通过自编码器分解输入图像来学习3D物体类别。作者进一步建模可能但不一定对称的物体,从而应对更广泛的场景。实验表明方法可以从单视图图像准确地重建3D形状。

Best Student Paper 最佳学生论文

2.BSP-Net: Generating Compact Meshes via Binary Space Partitioning

被引用206次

论文概括了 BSP-Net:一种基于凸分解的无监督多边形网格学习方法。该方法利用 BSP 树来训练网络,从而从训练集中学习到凸分解。生成的多边形网格紧凑、水密且尖锐。

Honorable Mention (Student) 最佳学生论文提名奖

3.DeepCap: Monocular Human Performance Capture Using Weak Supervision

被引用152次

这篇文章提出了一种基于深度学习的单目密集人体动作捕捉方法。该方法通过基于多视点的弱监督训练,从而完全避免需要3D ground truth的数据。网络结构基于姿态估计和非刚性变形两步,通过区分这两部分任务来促进模型学习。实验表明该方法在质量和鲁棒性上超过state of the art。

CVPR 2019

Best Paper 最佳论文奖

1.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

被引用155次

这篇文章提出了基于费马光路径原理和瞬态成像的新理论和算法,能够重建非视线隐蔽物体。它利用瞬态测量的中断点来约束物体法线方向,从而实现准确的物体形状重建。实验表明,该方法可以重建周边隐蔽和散射隐蔽的复杂物体形状。这是一个重要的进步,能实现毫米和微米尺度下的非视线物体重建。

Honorable Mention 最佳论文荣誉提名奖

2.A Style-Based Generator Architecture for Generative Adversarial Networks

被引用7419次

论文概述了一种基于风格迁移文献的GAN生成器架构,可以自动学习高级属性和随机变化的分离,并提供直观的缩放控制。实验表明,该生成器在传统分布度量上优于state-of-the-art,插值和分解变化因素上也有更好的表现。研究者还提出两个新的方法来量化插值质量和分解,并介绍了一个新的人脸数据集。

3.Learning the Depths of Moving People by Watching Frozen People

被引用217次

这篇文章提出一种利用人体姿态先验的方法来预测场景中人和相机移动时的密集深度。研究者使用模仿模特的视频作为新的数据来源来学习人体深度先验。在推理时,使用场景静止区域的运动视差线索来指导深度预测。实验表明方法能够预测复杂人体动作序列中的密集深度,并展示相比state-of-the-art的提升。

Best Student Paper 最佳学生论文奖

4.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

被引用414次

这篇论文研究如何解决视觉语言导航(VLN)三个关键挑战:跨模态匹配、模糊反馈和广度化问题。

作者提出强化跨模态匹配(RCM)方法,通过强化学习联合地 enforcing 跨模态对应性。具体来说,匹配 critic 用来提供内部奖励,鼓励指令和轨迹之间的全局匹配。一个推理导航器用于在局部视觉场景中进行跨模态匹配。

实验结果表明该方法达到新的 state-of-the-art 性能,且具有很好的广度化能力。这对视觉语言导航任务有重大意义。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR最佳”免费领取论文原文+代码合集

码字不易,欢迎大家点赞评论收藏!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值