CVPR 2024 获奖名单揭晓：北大上交获「最佳论文提名」，上海科技大学夺得「最佳学生论文」

最新推荐文章于 2025-05-24 17:01:23 发布

快乐小码农

最新推荐文章于 2025-05-24 17:01:23 发布

阅读量6.5k

点赞数 17

分类专栏：学术论文 AI 文章标签：计算机视觉 CVPR 模式识别 AI顶会 AI最佳论文

本文链接：https://blog.csdn.net/u012744245/article/details/139917062

版权

AI 同时被 2 个专栏收录

59 篇文章

订阅专栏

学术论文

11 篇文章

订阅专栏

CVPR 2024 最佳论文揭晓！北大上交获「最佳论文提名」，上海科技大学夺得「最佳学生论文」

6 月 19 日，国际计算机视觉与模式识别会议（CVPR）公布了 CVPR 2024 最佳论文。

今年共有 10 篇论文获奖，其中 2 篇最佳论文，2 篇最佳学生论文，另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。

在这里插入图片描述

1. CVPR 2024

1.1 CVPR 2024 规模最大、参与人数最多

本周（6.17-6.21），第四十一届国际计算机视觉与模式识别会议（CVPR）在美国西雅图拉开帷幕。CVPR 是计算机视觉乃至人工智能领域最具学术影响力的顶级会议之一，在Google Scholar指标榜单中位列全球学术出版物第4。

根据CVPR官方的最新公告，CVPR 2024 已经成为该会议历史上规模最大、参与人数最多的一届，截止6月19日，现场参会人数已超过一万两千人。其中中国（大陆地区）以 1511 名与会者的数量位居美国之外的首位，彰显了中国在计算机视觉领域的活跃度和参与热情。

本年度召开的 CVPR 2024 共有 35691 位注册作者，共收到 11532 篇投稿，其中 2719 篇被接收，录取率为23.6%。相比去年，CVPR 2023 共有 9155 篇论文被提交，2359 篇论文被接收，录用率为 25.8%。今年的论文数量提高了20.6%，创下新高，而录用率降低了 2.2%。

在这里插入图片描述

学术界和产业界的合作仍然是 CVPR 的关键。学术界贡献了 39.4% 的论文，产业与学术界的合作贡献了 27.6% 的论文。谷歌是最大的产业贡献方，有 52 篇论文，其次是腾讯和Meta，各有35篇论文。

在这里插入图片描述

在 CVPR 上，产业界的影响力很大，但大学依旧是研究活动的主要推动力。顶尖大学每年平均被接受的论文数量超过了30篇。

根据统计数据，今年表现最佳的大学是清华大学，共有 88 篇研究论文被接受。其次是浙江大学的 63 篇和上海交通大学的 57 篇。

在这里插入图片描述

1.2「图像和视频合成与生成」最热，语言视觉结合论文数量增加两倍

根据乔治亚理工学院计算机学院对CVPR 2024录用数据的统计分析，论文主题涵盖 36 个主题领域。
「图像和视频的合成与生成」成为最热门的研究主题，共有 329 篇论文。其次是「三维重建」和「人体行为识别」，分别有 276 篇和 202 篇论文。

在这里插入图片描述

根据数据AI模型研发商 LatticeFlow 对论文标题的分析，关于大语言模型的热潮也转移到了CVPR，结合语言和视觉的研究论文增加了两倍。例如：

OneLLM: One Framework to Align All Modalities with Language
Language Models as Black-Box Optimizers for Vision-Language Models
A Vision Check-up for Language Models
…

此外，用于生成视觉应用的扩散模型的研究论文也增加了三倍以上。

2. 最佳论文 | Best Papers

入围 CVPR 2024 决赛圈的最佳论文有24篇，相比去年多了12篇。

CVPR 2024 的最佳论文候选名单覆盖了丰富多样的研究领域，包括视觉与图形、单视图3D重建、视觉语言推理、基于医学和物理学的视觉、自主导航和自我中心视觉、3D技术、行动和动作识别、数据和评估、多视角与传感器融合、低样本/无监督/半监督学习、地位视觉和遥感、图像与视频合成以及多模态学习。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传]
在这里插入图片描述

论文 1

论文 1：Generative Image Dynamics

作者：Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski
机构：谷歌研究院
研究主题：图像和视频的合成与生成
论文链接：https://arxiv.org/pdf/2309.07906
代码地址：http://generative-dynamics.github.io/
论文简介：本文介绍了一种通过单张静态图片模拟自然振荡动态的新方法。这种方法能从单张图片中生成逼真的动画，其效果明显优于之前的基线方法。它还展示了实现多种下游应用的潜力，如创建无缝循环或交互式图像动态。

在这里插入图片描述

论文 2

论文2 ：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等
机构：加利福尼亚大学圣迭戈分校、谷歌研究院、南加州大学、剑桥大学、布兰迪斯大学
研究主题：数据和评估
论文链接：https://arxiv.org/pdf/2312.10240
代码地址：https://github.com/google-research/google-research/tree/master/richhf_18k
论文简介：本文重点介绍了首个用于图像生成的丰富人类反馈数据集。作者设计并训练了一个多模态变换器来预测丰富的人类反馈，并演示了一些改进图像生成的实例。

在这里插入图片描述

3. 最佳论文提名 | Honorable mention papers

论文 1

论文 1：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi
机构：北京大学、上海交通大学、东京大学等
研究主题：基于物理的视觉和从X生成形状
论文链接：
https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
代码地址：https://codeberg.org/ybh1998/EventPS
论文简介：光度立体视觉是一种通过分析从各个方向照射物体的图像序列来估计物体表面法线的技术，其独特之处在于重建结果的高分辨率和精确细节。在密集采样光照和朗伯反射物体的条件下，光度立体视觉方法的优势尤为突出。传统的基于帧相机的光度立体视觉数据采集过程复杂且耗时，通常需要捕获多曝光图像来合成高动态范围图像，从而准确地捕获物体表面的镜面反射区域，严重阻碍了有实时性需求的应用。事件相机具有高时间分辨率、高动态范围和低带宽要求的特点，被认为是实时计算机视觉应用中一种有前景的数据采集方案。论文利用事件相机的独特属性实现了实时的光度立体视觉。从事件相机触发的基本模型出发，逐个事件推导出与表面法线直接相关的“零化向量”信息。在传统算法与深度学习算法领域分别实现了基于事件相机的光度立体视觉算法。配合高速转台进行数据采集和经过GPU优化的算法，实现了超过30帧每秒的实时表面法线重建。

在这里插入图片描述

论文 2

论文 2：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann
机构：MIT、西蒙菲莎大学、多伦多大学
研究主题：多视角和传感器融合3D
论文链接：
https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
代码地址：dcharatan.github.io/pixelsplat
论文简介：本文首次展示了如何在仅一对图像的单次前向传递中预测3DGS表示，并将3DGS集成到端到端可微系统中，显著优于以前的基于黑匣子的光场Transformer，同时大大降低了训练和渲染成本，并生成了explicit 3D场景，代码已开源！

在这里插入图片描述

4. 最佳学生论文 | Best Student Papers

论文 1

论文 1：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su
机构：俄亥俄州立大学、微软研究院、加利福尼亚大学欧文分校、伦斯勒理工学院
研究主题：数据和评估
论文地址：https://arxiv.org/pdf/2311.18803
代码地址：https://imageomics.github.io/bioclip/
论文简介：自然界图像的丰富性为生物信息学提供了宝贵数据源。尽管针对特定任务的计算方法和工具不断涌现，但它们通常不易适应新问题或扩展到不同背景和数据集。为应对这一挑战，本文创建了 TreeOfLife-10M 数据集，这是迄今为止最大和最多样化的生物图像数据集。BioCLIP 模型基于生命树构建，利用 TreeOfLife-10M 的多样化生物图像和结构化知识，展现出在细粒度生物分类任务中的卓越性能，显著超越现有基线方法，其内在评估揭示了 BioCLIP 的强泛化能力。

在这里插入图片描述

论文 2

论文 2：Mip-Splatting：Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
机构：图宾根大学、图宾根人工智能中心、上海科技大学、布赖特宁、布拉格捷克技术大学
研究主题：多视角和传感器融合3D
论文地址：https://arxiv.org/abs/2311.16493
代码地址：https://github.com/autonomousvision/mip-splatting
论文简介：本文介绍了 Mip-Splatting，这是一种利用3D平滑滤波器和 2D Mip 滤波器改进三维高斯拼接（3DGS）的技术，可在任何比例下进行无混淆渲染。当测试采样率与训练采样率不同时，这种方法在非分布场景中的表现明显优于SOTA方法，从而更好地泛化到非分布的相机姿势和变焦系数。

在这里插入图片描述

值得注意的是，该篇论文的三位华人作者都是上海科技大学在读或毕业的硕士、博士生。

5. 最佳学生论文提名 | Honorable mention papers

论文 1

论文 1：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer 、Florian Bernard
机构：波恩大学
研究主题：优化方法（不包括深度学习）
论文链接：
https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
代码地址：https://github.com/paul0noah/spider-match
论文摘要：在产品空间上寻找最短路径是一种解决多种匹配问题的流行方法，包括用于匹配信号的动态时间规整方法、曲线匹配或曲线与3D形状的匹配。虽然这些方法允许在多项式时间内计算全局最优的解决方案，但其自然地推广到3D形状匹配却广泛被认为是不可行的。在本研究中，作者通过提出一种新的基于路径的3D形状匹配形式来解决这一问题。更具体地说，作者考虑了一种替代的形状离散化，其中一个3D形状（源形状）表示为一个“蜘蛛曲线”，即一个穿越3D形状表面的长自交曲线。随后，作者将3D形状匹配问题视为在蜘蛛曲线与目标3D形状的乘积图中寻找一条最短路径。论文的方法引入了一组新的约束，确保全局几何一致的匹配。总体而言，作者的形式化方法会导致一个整数线性规划问题，并且作者通过实验展示了其可以高效地解决以达到全局最优。作者证明了他们的方法在与最近的最先进形状匹配方法竞争时表现突出，同时还额外保障了几何一致性。

! 在这里插入图片描述

论文 2

论文 2：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
机构：北京大学、华为诺亚方舟实验室
研究主题：底层视觉
论文链接：
https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf
代码地址：https://github.com/huawei-noah/Efficient-Computing/tree/master/LowLevel/IPG
论文摘要：超分辨率（SR）是从低分辨率图像重建高分辨率图像。CNN 和窗口注意力法是典型 SR 模型的两大类。然而，这些方法都比较死板/僵化（rigid）：在这两种操作中，每个像素都会收集相同数量的相邻像素，这就阻碍了它们在 SR 任务中的有效性。作为替代方案，本文利用图的灵活性，提出了图像处理 GNN（Image Processing GNN, IPG）模型，以打破主导以往 SR 方法的僵化性。首先，SR 是不平衡的，因为大部分重建工作都集中在一小部分细节丰富的图像部分。因此，本文为细节丰富的图像节点分配更高的节点度，从而利用度的灵活性。然后，为了构建 SR 有效聚合图，本文将图像视为像素节点集，而不是图像块（patch）节点。最后，本文认为局部和全局信息对于 SR 性能都至关重要。为了通过灵活的图谱有效地收集局部和全局范围内的像素信息，本文搜索附近区域内的节点连接来构建局部图谱；并在整个图像的跨采样空间内寻找连接来构建全局图谱。图的灵活性提高了 IPG 模型的 SR 性能。在各种数据集上的实验结果表明，所提出的 IPG 优于最新技术基准。

在这里插入图片描述

论文 3

论文 3：Objects as volumes: A stochastic geometry view of opaque solids

作者：Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas
机构：卡耐基梅隆大学
研究主题：视觉 + 图形
论文链接：https://arxiv.org/pdf/2312.15406v2
代码地址：https://imaging.cs.cmu.edu/volumetric_opaque_solids/
论文摘要：作者开发了一种将不透明固体表示为体积的理论。从不透明固体的随机指示函数表示出发，作者证明了这类固体可以使用指数体积传输进行建模的条件。作者还推导出体积衰减系数作为底层指示函数概率分布的函数式表达式。作者将理论推广，以考虑固体不同部分的同向散射和异向散射，以及将不透明固体表示为随机隐式曲面。作者从第一原理推导我们的体积表示法，确保它满足物理约束，如互反性和可逆性。论文使用他们的理论来解释、比较和纠正先前的体积表示，以及提出有意义的扩展，这导致了在3D重建任务中性能的提升。

在这里插入图片描述

论文 4

论文 4：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin
机构：俄勒冈州立大学
研究主题：可解释的计算机视觉
论文链接：
https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf
论文摘要：为了深入了解不同视觉识别骨干网的决策过程，论文提出了两种方法：子解释计数和交叉测试。这些方法系统地在整个数据集上应用深度解释算法，并比较由解释的数量和性质生成的统计数据。这些方法揭示了网络在两个属性上的差异，称为组合性和离散性。结果发现，Transformers和ConvNeXt在决策过程中更具组合性，因为它们共同考虑图像的多个部分，而传统的CNN和蒸馏Transformer则较少组合性和更具离散性，这意味着它们使用更多样但较小的部分集合来实现有信心的预测。通过进一步实验，论文确定了归一化选择对模型的组合性特别重要，批量归一化导致组合性较低，而组归一化和层归一化则导致组合性较高。最后，论文还分析了不同骨干网共享的特征，并基于特征使用相似性绘制了不同模型的景观图。

在这里插入图片描述

6. 其他奖项

此外，IEEE计算机协会（CS）在今年的会议上宣布了TCPAMI奖，包括 Longuet-Higgins 奖、青年研究者奖、Thomas S. Huang 纪念奖三项。

Longuet-Higgins 奖

该奖项授予那些经得起时间检验的论文，2024年的 Longuet-Higgins 奖表彰了2014年在CVPR上发表的最具影响力的论文。

获奖论文：Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
机构：加利福尼亚大学伯克利分校，ICSI
论文链接：https://arxiv.org/abs/1311.2524
代码地址：https://www.cs.berkeley.edu/~rbg/rcnn
论文简介：近年来，基于经典PASCAL VOC数据集的目标检测性能趋于停滞。表现最好的方法是复杂的集成系统，通常结合了多种低层次图像特征和高层次上下文信息。研究人员提出了一种简单且可扩展的检测算法，使平均精度均值（mAP）比先前在VOC 2012上的最佳结果提高了30%以上，达到了53.3%的mAP。他们的方法结合了两个关键见解：(1) 可以将高容量卷积神经网络（CNN）应用于自下而上的区域建议，以定位和分割目标；(2) 当标注的训练数据稀缺时，先进行辅助任务的有监督预训练，然后进行特定领域的微调，可以显著提升性能。由于他们将区域建议与CNN结合，故称其方法为R-CNN（Regions with CNN features）。研究人员还进行了实验，以了解网络的学习内容，揭示了丰富的图像特征层次结构。

在这里插入图片描述