CVPR 2024 接收结果出炉！再创历史新高！附10篇最新论文

最新推荐文章于 2024-05-29 22:15:10 发布

Amusi（CVer）

最新推荐文章于 2024-05-29 22:15:10 发布

阅读量1.8w

点赞数 25

本文链接：https://blog.csdn.net/amusi1994/article/details/136359972

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【多模态和扩散模型】交流群

添加微信：CVer444，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！

2024 年 2 月 27 日凌晨，CVPR 2024 顶会论文接收结果出炉！这次没有先放出论文 ID List，而是在OpenReview上直接公布结果（朋友圈好友纷纷晒截图，报喜讯~你被刷屏了没？！）。

CVPR 2024 主委会官方尚未发布这次论文接收数据，但可以确定的是接收数量再创新高！毕竟ID都快18000了...PS：CVPR 2023 是收录2360篇

CVPR 2024 会议将于 2024 年 6 月 17 日至 21 日在美国西雅图举行。

Amusi 简单预测一下，CVPR 2024 收录的工作中 " 扩散模型、多模态、大模型、3DGS、AIGC " 相关工作的数量会显著增长。

本文快速整理了10篇 CVPR 2024 最新工作，内容如下所示。如果你想持续了解更多更新的CVPR 2024 论文和代码，大家可以关注CVPR2024-Papers-with-Code，在CVer公众号后台回复：CVPR2024，即可下载，链接如下：

https://github.com/amusi/CVPR2024-Papers-with-Code

这个项目是从2020年开始，Star数已经破万+！覆盖CVPR 2020-2024的论文工作，很开心能帮助到一些同学。

如果你的 CVPR 2024 论文接收了，欢迎提交issues~

1. DETRs Beat YOLOs on Real-time Object Detection

单位：百度
Paper: https://arxiv.org/abs/2304.08069
Code: https://github.com/lyuwenyu/RT-DETR

超越同规模所有YOLO！RT-DETR：一种实时检测Transformer，据称是第一个实时端到端目标检测器，在速度和精度方面超越YOLOv8、v7等网络，而且在精度上超过了全部使用相同骨干网络的DETR检测器，代码已开源！

2. InstanceDiffusion: Instance-level Control for Image Generation

单位：Meta, UC 伯克利
Homepage: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Paper: https://arxiv.org/abs/2402.03290
Code: https://github.com/frank-xwang/InstanceDiffusion

InstanceDiffusion：图像生成新工作，可以对文本到图像的生成进行精确的实例级控制，支持每个实例的自由格式语言条件，并允许以灵活的方式指定实例位置，例如简单的单点、涂鸦、边界框或复杂的实例分割掩码及其组合，代码已开源！

3. Residual Denoising Diffusion Models

单位：中科院, 国科大, 沈阳大学, 华南理工, 港大
Paper: https://arxiv.org/abs/2308.13712
Code: https://github.com/nachifur/RDDM

残差去噪扩散模型(RDDM)：一种用于图像复原和图像生成的统一扩散模型，在四种不同图像复原(暗光增强、去雨、去模糊等)任务上的实验结果表明，RDDM在不超过五个采样步骤的情况下实现了SOTA性能，代码已开源！

4. mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

单位：阿里巴巴
Paper: https://arxiv.org/abs/2311.04257
Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

本文引入一种多功能的多模态大语言模型 mPLUG-Owl2，它有效地利用模态协作来提高文本和多模态任务的性能，这是第一个在纯文本和多模态场景中展示模态协作现象的 MLLM！代码已开源！

5. Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Homepage: https://city-super.github.io/scaffold-gs/
Paper: https://arxiv.org/abs/2312.00109
Code: https://github.com/city-super/Scaffold-GS

6. ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations

Homepage: https://eclipse-t2i.vercel.app/
Paper: https://arxiv.org/abs/2312.04655
Code: https://github.com/eclipse-t2i/eclipse-inference

7. Instruct-Imagen: Image Generation with Multi-modal Instruction

单位：谷歌DeepMind, 谷歌
Paper: https://arxiv.org/abs/2401.01952

Instruct-Imagen：一种图像生成新模型，它可以理解多模态指令以完成各种视觉生成任务，使用自然语言来合并不同的模态（例如文本、边缘、掩码、风格、主题等），以生成高保真可控的图像！

8. TransNeXt: Robust Foveal Visual Perception for Vision Transformers

作者：Dai Shi 一位独立研究员
Paper: https://arxiv.org/abs/2311.17132
Code: https://github.com/DaiShiResearch/TransNeXt

视觉新主干！本文提出聚合注意力：一种基于仿生设计的token mixer，并提出卷积 GLU，进而创建了TransNeXt新视觉主干，在各种下游视觉任务上，多种模型尺寸上都实现了最先进的性能，代码已开源！

9. EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

单位：上海AI Lab, 上交, 港大, 港中大, 清华
Homepage: https://tai-wang.github.io/embodiedscan/
Paper: https://arxiv.org/abs/2312.16170
Code: https://github.com/OpenRobotLab/EmbodiedScan

EmbodiedScan：一种多模态，以自我为中心的3D感知数据集和基准，包含超过5K扫描，1M RGB-D视图，1M语言提示，760个类别的160K 3D旋转边界框，80个常见类别的密集语义占用，还提出一个具身感知新基线，代码已开源！

10. Object Recognition as Next Token Prediction

Paper: https://arxiv.org/abs/2312.02142
Code: https://github.com/kaiyuyue/nxtp

最新CVPR 2024论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如多模态或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

Amusi（CVer）

关注

25
点赞
踩
65

收藏

觉得还不错? 一键收藏
1
评论
CVPR 2024 接收结果出炉！再创历史新高！附10篇最新论文

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【多模态和扩散模型】交流群添加微信：CVer444，小助手会拉你进群！扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！2024年 2 月 27日凌晨，CVPR 2024 顶会论文接收结果出炉！这次没有先放出论文 ID L...
复制链接

扫一扫