4月5日,CVPR 2024公布了最终录用结果。CVPR官方发文称,今年共提交了11532份有效论文,2719篇论文被接收,录用率为23.6%。作为全球计算机视觉与模式识别领域的顶级会议,CVPR每年都吸引着全球众多研究者和企业的关注。入选CVPR的论文需要经过严格的评审流程,确保其创新性和实用性达到国际领先水平。
本文从入选论文中筛选出了10篇论文,包括多模态大模型,目标检测,图像分割等类别
多模态大模型01 GLEE: General Object Foundation Model for Images and Videos at Scale
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。
为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE,一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪,并在实现全能性的同时保持 SOTA 性能。
此外,GLEE 还构建了统一优化目标的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任务的零样本迁移。并验证了多种数据之间相互促进的能力。模型和训练代码已全部开源。
论文地址:https://arxiv.org/abs/2312.09158
多模态大模型 02 RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。然而,与大语言模型一样,多模态大模型也依然受到“幻觉”问题的困扰,即模型在回答中出现与图片信息不符的内容。经过测试发现,即便是 GPT-4V 也会在 45.9% 的图片回答中出现明显的“幻觉”。大模型出现“幻觉”的症结之一在于未经人类对齐时发生的“过泛化”情况。例如,让模型描述街景图片时,无论画面中是否有行人出现,模型都会因为自身过度的泛化问题,输出对行人的描述。这种现象在当前的多模态大模型中普遍存在,也使得多模态大模型的应用在可信度问题得到解决之前仍受限制。因此,如何尽可能减少多模态大模型的“幻觉”,提高回答的准确性和可信度,是所有人工智能研究者都在奋力攻克的难题。
为缓解多模态大模型的幻觉问题,我们提出了全新的多模态大模型对齐框架 RLHF-V,从数据和算法层面入手显著减少“幻觉”的出现。目前,这一工作已被 CVPR 2024 接收。应用该方法训练的开源模型 OmniLMM-12B 在多个幻觉指标上取得了接近 GPT-4V 的水平。
论文地址:https://arxiv.org/abs/2312.00849
扩散模型 03 Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models
扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的应用前景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样时间端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。
为了解决这一难题,微信视觉团队与中山大学合作,联手探究了扩散模型中的奇点问题,并提出了一个即插即用的方法,有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。
论文地址:https://arxiv.org/pdf/2403.08381.pdf
扩散模型 04 Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation
在本研究中,作者指出了对图像生成扩散模型的可重复性或一致性进行定量评分的重要性。本文提出了一种基于成对平均CLIP(对比语言-图像预训练)分数的语义一致性评分方法。通过将此度量应用于比较两种领先的开源图像生成扩散模型——Stable Diffusion XL(SDXL)和PixArt-α,作者发现它们在语义一致性分数上存在显著的统计差异。所选模型的语义一致性分数与综合人工标注结果的一致性高达94%。此外,本文还研究了SDXL及其经过LoRA(低秩适应)微调的版本之间的一致性,结果显示微调后的模型在语义一致性上有显著提高。本文提出的语义一致性分数为图像生成的一致性提供了一个量化工具,这有助于评估特定任务的模型架构,并为选择合适的模型提供了参考依据。
论文地址:https://arxiv.org/abs/2404.08799
视频分割 05 UniVS: Unified and Universal Video Segmentation with Prompts as Queries
近日, 由香港理工大学和 OPPO 研究院提出了一种新颖且简洁的统一视频分割架构,名为 UniVS,旨在通过使用视觉和文本提示作为查询来明确地解码物体的掩码。对于每一个目标物体,UniVS 取先前帧中的提示特征的平均值作为其初始查询,从而明确地解码出目标物体的掩码。
同时,本文在掩码解码器中引入了一个目标感知的提示交叉注意力层,以传递内存池中的提示特征到当前帧中。在推理阶段,通过将先前帧中预测的物体掩码作为它们的视觉提示,UniVS 将不同的视频分割任务转化为以提示为导向的目标分割,消除了启发式的帧间匹配过程。
本文提出的框架不仅统一了不同的视频任务,还自然地实现了统一的训练和测试,确保在不同场景下具有稳健的性能。在视频实例、语义、全景、对象和文本指代分割任务的 10 个具有挑战性的 VS 基准测试上,UniVS 取得了非常不错的视频分割性能,并且在多个场景下展示了其强大的通用能力。
论文地址:https://arxiv.org/abs/2402.18115
图像分割 06 Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation
我们提出了一种具有锚点正则化和低秩微调的弱监督自训练架构,以提高自适应的鲁棒性和计算效率。具体而言,我们首先采用无源域的自训练策略,从而避免对源数据的依赖。自训练产生伪标签,用于监督模型的更新,但是容易受到错误伪标签的影响,我们引入冻结的 source model 作为锚定网络,以规范模型的更新。为了进一步减少更新完整模型权重的高计算成本,我们对编码器应用低秩权重分解,并通过低秩快捷路径进行反向传播。最后,为了进一步提高无源域自适应的效果,我们在目标域引入了弱监督(weak supervise),例如稀疏的点注释,以提供更强的域适应信息,同时这种弱监督与 SAM 中的提示编码器自然兼容。借助弱监督作为 Prompt,我们获得了更局部、更明确的自训练伪标签。经过调整的模型在多个下游任务上表现出了更强的泛化能力。
论文地址:https://arxiv.org/pdf/2312.03502.pdf
语义分割 07 Hunting Attributes: Context Prototype-Aware Learning for Weakly Supervised Semantic Segmentation
CPAL方法通过上下文感知地捕捉对象特征的细微差异来深化对实例的理解,这一过程得益于对上下文信息的精妙利用。它不仅仅关注原型的表征能力,还通过特征分布对齐技术和一个创新的训练框架来进一步优化这种能力。这个训练框架独到之处在于它融合了传统的标签引导分类监督和新颖的原型引导自我监督,两者相得益彰。通过这种方法,在PASCAL VOC 2012和MS COCO 2014两个标准数据集上的实验不仅验证了CPAL的有效性,还展示了它在提升模型性能方面的显著优势,推动了该领域的进步至新的高度。
论文地址: https://arxiv.org/abs/2403.07630
3D目标检测 08 RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection
本文提出了一个基于毫米波雷达和环视相机鸟瞰图(BEV)特征融合的3D目标检测模型架构RCBEVDet。该架构针对毫米波雷达的特性设计了一种高效的毫米波雷达主干网络(RadarBEVNet)进行点云鸟瞰图特征提取,提出了一种基于可形变的跨注意力机制进行毫米波雷达特征和环视相机特征融合。该架构对现有主流的环视相机3D检测器具有较强的兼容性,在显著提升3D目标检测精度的同时可保持实时的推理速度,且对模态信号丢失、干扰等情况鲁棒。同时,该架构在自动驾驶感知数据集nuScenes上取得了领先的毫米波雷达-多摄相机3D目标检测精度以及推理速度-精度综合性能。
论文地址: https://arxiv.org/abs/2403.16440
纯视觉大模型 09 Sequential Modeling Enables Scalable Learning for Large Vision Models
本文提出了一种新颖的序列建模方法,可以无需利用任何语言数据来学习大型视觉模型(LVM)。为了实现这一点,我们定义了一个通用的格式"视觉句子",其中我们可以将原始图像和视频以及语义分割和深度重构的标注数据来源表示为不需要任何元知识 beyond the pixels 的数据来源。一旦这种广泛的视觉数据(包括420亿个标记)用序列形式表示,模型可以训练以最小化下一个标记的交叉熵损失。通过在模型架构和数据多样性的不同规模上进行训练,我们提供了实验证据,证明我们的模型具有良好的扩展性。许多不同的视觉任务都可以通过在测试时设计合适的视觉提示来解决。
论文地址:https://arxiv.org/abs/2312.00785
统一图文解析模型10 OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition
这篇文章首次提出文字图像的统一解析模型OmniParser,在一个框架内解决多个任务的同时提供了精确的文本位置,模型可解释性大幅提高。同时,OmniParser将OCR基础任务检测识别与结构化序列进行解耦,通过并行化处理检测识别大幅减少了推理时间。随着深度学习的快速发展,模型可用训练数据规模呈指数级上升,大规模语言模型和多模态模型的通用理解能力得到了巨大的提高,出现了一批能解决多种任务的统一模型。
论文地址:https://arxiv.org/abs/2403.19128