CVPR 2024最佳论文奖新鲜出炉，生成式AI成最大赢家！自动驾驶的下一个风口？...-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

仅以此文预祝各位大佬2024西雅图 CVPR 展会顺利！更多内容请关注https://cvpr.thecvf.com/virtual/2024/papers.html?filter=titles

也欢迎添加小助理微信AIDriver004，加入我们的技术交流群

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

作者丨梦晨西风来源丨量子位编辑丨AiCharm

刚刚，CVPR 2024 正式公布了最佳论文、最佳学生论文等奖项。来自谷歌、美国·加州大学圣迭戈分校等2篇论文获得了最佳论文奖，来自德国·图宾根大学和OSU的2篇论文获得了最佳学生论文奖。

2024 年 CVPR （Computer Vision and Pattern Recogntion Conference) 即国际计算机视觉与模式识别会议，于6月17日至21日正在美国西雅图召开。2024 年，今年共提交了11532份有效论文，2719篇论文被接收，录用率为23.6%。

最佳论文奖项：

https://cvpr.thecvf.com/

最佳论文

Generative Image Dynamics

Google Research （美国·谷歌研究院 )

https://generative-dynamics.github.io/

摘要：我们提出了一种建模场景运动图像空间先验的方法。我们的先验是从真实视频序列中提取的一系列运动轨迹中学习得到的，这些视频展示了自然的、振荡的动态，比如树木、花朵、蜡烛和在风中摇曳的衣服。我们在傅里叶域中建模了这种密集的、长期的运动先验：给定一张单独的图像，我们训练的模型使用频率协调的扩散抽样过程来预测一个频谱体积，可以将其转换为跨越整个视频的运动纹理。除了基于图像的渲染模块，这些轨迹还可以用于许多下游应用，比如将静止图像转换为无缝循环的视频，或者通过将频谱体积解释为图像空间的模态基础来让用户在真实图片中与对象进行真实交互，从而近似对象动态。

Rich Human Feedback for Text-to-lmage Generation

University of California, San Diego （美国·加州大学圣迭戈分校）

https://arxiv.org/abs/2312.10240

近期的文本到图像（T2I）生成模型，如 Stable Diffusion 和 Imagen，在基于文本描述生成高分辨率图像方面取得了显著进展。然而，许多生成的图像仍然存在问题，例如伪影/不合理性、与文本描述不一致以及美学质量低下。受到强化学习与人类反馈（RLHF）在大型语言模型中的成功启发，之前的研究收集了人类提供的图像评分反馈，并训练了一个奖励模型来改进 T2I 生成。在本文中，我们通过以下方式丰富了反馈信号：（i）标记与文本不一致或不合理的图像区域，以及（ii）注释文本提示中被误述或缺失的单词。我们收集了在18K个生成的图像（RichHF-18K）上提供这样丰富的人类反馈，并训练了一个多模态 Transformer 来自动预测丰富的反馈。我们展示了预测的丰富人类反馈可以用于改进图像生成，例如通过选择高质量的训练数据来微调和改进生成模型，或者通过创建具有预测热图的掩码来修复问题区域。值得注意的是，这些改进适用于超出用于收集人类反馈数据的图像生成模型（Stable Diffusion变体）的模型（Muse）。

最佳学生论文

Mip-Splatting: Alias-free 3D Gaussian Splatting

University of Tübingen （德国·图宾根大学）

https://github.com/autonomousvision/mip-splatting（代码已开源）

摘要：进来，3D高斯点染已经展示出令人印象深刻的新视角合成结果，达到了高保真度和高效率。然而，在改变采样率（例如，通过改变焦距或相机距离）时，可以观察到明显的伪影。我们发现，这种现象的源头可以归因于缺乏 3D 频率约束和使用 2D 膨胀滤波器。为了解决这个问题，我们引入了一个 3D 平滑滤波器，该滤波器基于输入视图引起的最大采样频率约束了 3D 高斯基元的大小，消除了放大时的高频伪影。此外，用 2D Mip 滤波器替换 2D 膨胀，这模拟了 2D 盒滤波器，有效地减轻了混叠和膨胀问题。我们的评估，包括在单尺度图像上进行训练并在多个尺度上进行测试的情况，验证了我们方法的有效性。

BioCLlP: A Vision Foundation Model for the Tree of Life

The Ohio State University （美国·俄亥俄州立大学）

https://imageomics.github.io/bioclip/（数据代码已开源）

https://arxiv.org/abs/2311.18803

摘要：从无人机到个人手机，收集到的自然界图像越来越丰富，成为了生物信息的重要来源。针对从图像中提取与生物学相关信息的科学和保护需求，计算方法和工具（尤其是计算机视觉方法）如雨后春笋般涌现。然而，大多数方法都是为特定任务而设计的定制方法，并不容易适应或扩展到新的问题、背景和数据集。针对图像上的一般性生物学问题，我们急需一个视觉模型。为了解决这个问题，我们策划并发布了 TreeOfLife-10M，这是迄今为止最大、最多样化的 ML 准备好的生物图像数据集。然后，我们开发了 BioCLIP，这是一个基于生命树的基础模型，利用了 TreeOfLife-10M 所捕捉到的生物学的独特属性，即植物、动物和真菌的图像丰富多样，以及丰富的结构化生物学知识。我们对我们的方法进行了严格的基准测试，涉及到多样化的细粒度生物分类任务，并发现 BioCLIP 在各项任务中始终表现出色，显著优于现有的基线方法（绝对优势达到16%到17%）。内在评估表明，BioCLIP 已学会了符合生命树的分层表示，揭示了其强大的泛化能力。

其他奖项

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频