CVPR 2024 接收结果出炉!再创历史新高!附10篇最新论文

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和扩散模型】交流群

添加微信:CVer444,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

b601123cecd1220f9ba3324c4734d127.jpeg

2024 年 2 月 27 日凌晨,CVPR 2024 顶会论文接收结果出炉!这次没有先放出论文 ID List,而是在OpenReview上直接公布结果(朋友圈好友纷纷晒截图,报喜讯~你被刷屏了没?!)。

228fa2fa73ea768a2cb40f00934f60e1.png

CVPR 2024 主委会官方尚未发布这次论文接收数据,但可以确定的是接收数量再创新高!毕竟ID都快18000了...PS:CVPR 2023 是收录2360篇

CVPR 2024 会议将于 2024 年 6 月 17 日至 21 日在美国西雅图举行。

5f73a8a736f19a488c7b64472f97af5b.png

Amusi 简单预测一下,CVPR 2024 收录的工作中 " 扩散模型、多模态、大模型、3DGS、AIGC " 相关工作的数量会显著增长。

本文快速整理了10篇 CVPR 2024 最新工作,内容如下所示。如果你想持续了解更多更新的CVPR 2024 论文和代码,大家可以关注CVPR2024-Papers-with-Code,在CVer公众号后台回复:CVPR2024,即可下载,链接如下:

https://github.com/amusi/CVPR2024-Papers-with-Code

这个项目是从2020年开始,Star数已经破万+!覆盖CVPR 2020-2024的论文工作,很开心能帮助到一些同学。

18bef55108b908e4c068aa27c3e20e6c.png

如果你的 CVPR 2024 论文接收了,欢迎提交issues~

1. DETRs Beat YOLOs on Real-time Object Detection

  • 单位:百度

  • Paper: https://arxiv.org/abs/2304.08069

  • Code: https://github.com/lyuwenyu/RT-DETR

超越同规模所有YOLO!RT-DETR:一种实时检测Transformer,据称是第一个实时端到端目标检测器,在速度和精度方面超越YOLOv8、v7等网络,而且在精度上超过了全部使用相同骨干网络的DETR检测器,代码已开源!

a4ebd5258e11d80a4f5f67d82b5cf815.png

2. InstanceDiffusion: Instance-level Control for Image Generation

  • 单位:Meta, UC 伯克利

  • Homepage: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/

  • Paper: https://arxiv.org/abs/2402.03290

  • Code: https://github.com/frank-xwang/InstanceDiffusion

InstanceDiffusion:图像生成新工作,可以对文本到图像的生成进行精确的实例级控制,支持每个实例的自由格式语言条件,并允许以灵活的方式指定实例位置,例如简单的单点、涂鸦、边界框或复杂的实例分割掩码及其组合,代码已开源!

f7a0bc18c382243d281347edf46607c0.png

3. Residual Denoising Diffusion Models

  • 单位:中科院, 国科大, 沈阳大学, 华南理工, 港大

  • Paper: https://arxiv.org/abs/2308.13712

  • Code: https://github.com/nachifur/RDDM

残差去噪扩散模型(RDDM):一种用于图像复原和图像生成的统一扩散模型,在四种不同图像复原(暗光增强、去雨、去模糊等)任务上的实验结果表明,RDDM在不超过五个采样步骤的情况下实现了SOTA性能,代码已开源!

0b9a16daa319eb7cfce0019a6c01317c.png

4. mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

  • 单位:阿里巴巴

  • Paper: https://arxiv.org/abs/2311.04257

  • Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

本文引入一种多功能的多模态大语言模型 mPLUG-Owl2,它有效地利用模态协作来提高文本和多模态任务的性能,这是第一个在纯文本和多模态场景中展示模态协作现象的 MLLM!代码已开源!

a47bbf3098750f33a04871be556c803a.png

5. Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

  • Homepage: https://city-super.github.io/scaffold-gs/

  • Paper: https://arxiv.org/abs/2312.00109

  • Code: https://github.com/city-super/Scaffold-GS

6. ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations

  • Homepage: https://eclipse-t2i.vercel.app/

  • Paper: https://arxiv.org/abs/2312.04655

  • Code: https://github.com/eclipse-t2i/eclipse-inference

7. Instruct-Imagen: Image Generation with Multi-modal Instruction

  • 单位:谷歌DeepMind, 谷歌

  • Paper: https://arxiv.org/abs/2401.01952

Instruct-Imagen:一种图像生成新模型,它可以理解多模态指令以完成各种视觉生成任务,使用自然语言来合并不同的模态(例如文本、边缘、掩码、风格、主题等),以生成高保真可控的图像!

a04339fc8ccf1f2876bf2b91510b4055.png

8. TransNeXt: Robust Foveal Visual Perception for Vision Transformers

  • 作者:Dai Shi 一位独立研究员

  • Paper: https://arxiv.org/abs/2311.17132

  • Code: https://github.com/DaiShiResearch/TransNeXt

视觉新主干!本文提出聚合注意力:一种基于仿生设计的token mixer,并提出卷积 GLU,进而创建了TransNeXt新视觉主干,在各种下游视觉任务上,多种模型尺寸上都实现了最先进的性能,代码已开源!

07de3c97f069174ec0465ed768cfe2ce.png

9. EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI

  • 单位:上海AI Lab, 上交, 港大, 港中大, 清华

  • Homepage: https://tai-wang.github.io/embodiedscan/

  • Paper: https://arxiv.org/abs/2312.16170

  • Code: https://github.com/OpenRobotLab/EmbodiedScan

EmbodiedScan:一种多模态,以自我为中心的3D感知数据集和基准,包含超过5K扫描,1M RGB-D视图,1M语言提示,760个类别的160K 3D旋转边界框,80个常见类别的密集语义占用,还提出一个具身感知新基线,代码已开源!

cfe0a21223efca8bc563e7745c6ac576.png

10. Object Recognition as Next Token Prediction

  • Paper: https://arxiv.org/abs/2312.02142

  • Code: https://github.com/kaiyuyue/nxtp

最新CVPR 2024论文和代码下载

 
 

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

 
 

多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 25
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值