图像增强
解决的主要问题是低光照条件下的图像增强
通过多尺度整体融合分支提取事件和图像的结构和纹理信息,并引入信噪比(Signal-to-Noise Ratio, SNR)引导的区域特征选择,以增强低SNR区域的图像
嵌入表示
Transcriptomics-guided Slide Representation Learning in Computational Pathology
试图解决的主要问题是如何在计算病理学中有效地从整个千兆像素级的全切片图像学习到有用的嵌入表示
使用ViT来编码组织学幻灯片的图像块,以及使用MLP来编码基因表达数据,通过对比学习对齐
除了对比损失外,作者还引入了表达重建目标和视觉内模态目标
事件相机
Bilateral Event Mining and Complementary for Event Stream Super-Resolution
旨在解决现有事件相机在复杂场景应用中面临的空间分辨率不足的挑战
采用双流网络分别独立处理正事件和负事件,并通过提出的双边信息交换模块促进两流之间的信息交换
扩散模型
GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors
旨在解决现有3D形状生成模型在几何可行性和物理稳定性方面的一些关键问题
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following
旨在解决现有文本到图像扩散模型在解释复杂提示时通常遇到的挑战
引入一个语义面板作为中间件,这个面板通过大型语言模型解析输入文本中的视觉概念,然后将其注入到去噪网络中,作为详细的控制信号以补充文本条件
EscherNet: A Generative Model for Scalable View Synthesis
试图解决的主要问题是如何学习一个通用的3D表示,以便于实现可扩展的视图合成
EscherNet学习与场景颜色和几何形状相关的隐式表示
NoiseCLR的目标是在不依赖文本提示、标签数据或用户指导的情况下,通过对比学习框架,从特定的未标记图像集合中发现扩散模型中的潜在语义方向,并能够在不同的图像和领域中应用这些方向进行高度解耦的编辑
基于元学习框架的投毒方法,通过额外的转换采样过程来制作可转移和鲁棒的扰动,以保护图像不被恶意使用
3D重建
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild
旨在解决从单目野外视频中重建多个人物的3D模型这一具有挑战性的任务
定义整个场景的分层神经表示、使用分层可微体积渲染从视频中学习该表示(为场景中的每个人定义一个3D形状和外观的隐式神经表示,这些表示在场景中是分层和交织的)
图像生成
Instruct-Imagen: Image Generation with Multi-modal Instruction
多模态指令引入
两阶段训练方法:
第一阶段:检索增强训练
第二阶段:多模态指令微调
模型架构设计:Instruct-Imagen基于预训练的文本到图像扩散模型,通过添加一个交叉注意力层来编码多模态指令
Attention Calibration for Disentangled Text-to-Image Personalization
试图解决的问题是如何从单个参考图像中捕捉多个新颖概念
引入新的可学习修饰符与类别绑定以捕获多个概念的属性,并通过分离和加强不同类别的注意力图来减少概念间的相互影响
EGTR: Extracting Graph from Transformer for Scene Graph Generation
EGTR通过一个浅层的关系提取头来从自注意力层中提取关系图。这种方法有效地利用了自注意力的副产品,即在自注意力层中学习到的注意力查询和键的关系
根据对象检测的质量动态调整关系标签,使得模型在训练初期可以专注于对象检测任务,随着对象检测性能的提高,逐渐过渡到多任务学习
姿态估计
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
目标是在不需要额外的深度测量或场景重建信息的情况下,通过学习跨图像匹配3D坐标,实现无需尺度的相对相机姿态估计
深度估计
Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
探索现代生成性扩散模型中捕获的广泛先验知识是否能够使深度估计更加准确和泛化。
Marigold是一种基于Stable Diffusion的仿射不变单目深度估计方法,它保留了丰富的先验知识
视觉-文本
Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models
旨在解决以下问题:
复杂视觉任务的解决:传统的视觉-语言模型(VLMs)在解决涉及计数和空间推理等复杂视觉任务时表现不佳。
生成程序的错误倾向:使用大型语言模型(LLMs)生成的程序可能存在错误,如遗漏必要步骤、包含无关步骤,或者在调用的专门模型输出错误时无法恢复。
具体来说,VPD通过以下步骤实现这一目标:
使用LLM生成多个候选程序。
执行这些程序并验证以确定正确的程序。
将正确的程序转换为自然语言的推理步骤(Chain-of-Thought,CoT)。
将这些推理步骤蒸馏到VLM中,以提高其解决复杂视觉任务的能力。
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
主要解决的问题是如何将视觉基础模型扩展到大规模参数,并与大型语言模型进行有效对齐
论文试图解决以下几个关键问题:
参数规模差异:现有的视觉模型与大型语言模型之间存在参数规模上的巨大差异,这可能导致语言模型的能力没有得到充分利用。
表示不一致:视觉模型和语言模型在表示学习上存在不一致性,这影响了多模态任务中的性能。
连接效率低下:现有视觉-语言模型(如VLLMs)通常使用轻量级的“粘合”层(例如QFormer或线性投影)来对齐视觉和语言模型的特征,但这些方法可能无法捕捉到丰富的跨模态交互和依赖关系。
引入了一个8亿参数的语言中间件(QLLaMA),并增加了额外的可学习查询和交叉注意力层,以实现视觉和语言特征的有效对齐
医学影像
Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration
试图解决医学图像分析中的一个基本问题——可变形图像配准
现有的基于卷积神经网络或transformers的深度学习方法在捕捉全分辨率下的细粒度长距离依赖方面存在限制
引入相关性感知的多窗口MLP块,在新颖的粗到细配准架构中,捕获细粒度的多范围依赖性,以执行相关性感知的粗到细配准
自动驾驶
Producing and Leveraging Online Map Uncertainty in Trajectory Prediction
如何从传感器数据中在线估计高精地图,但现有的在线地图估计方法并没有提供与地图元素相关的不确定性或置信度信息
提出了一种通用的向量化地图不确定性表述
图像分割
LISA: Reasoning Segmentation via Large Language Model
提出了一个新的图像分割任务,称为“推理分割”;推理分割任务要求模型能够处理复杂和隐含的查询文本,并生成相应的二值分割掩码
LISA通过引入一个新的
<SEG>
标记到现有词汇中,当模型生成这个标记时,其隐藏嵌入将进一步解码成相应的分割掩码
From SAM to CAMs: Exploring Segment Anything Model for Weakly Supervised Semantic Segmentation
使用SAM的自动分割结果进行基于原型的对比学习,使得每个特征点更接近其所属分割的原型,同时远离其他分割的原型。
利用每个类别的CAM作为SAM的提示,生成类别特定的分割掩码,并通过SAM的稳定性分数和CAM的激活分数聚合成统一的自监督信号。
视觉定位
Learning to Produce Semi-dense Correspondences for Visual Localization
使用特征匹配器检测查询图像与参考图像对之间的2D-2D匹配。
PIN模块基于参考图像的已知相机参数和稀疏的观察到的3D点,预测所有检测到的2D关键点的3D场景坐标。
根据预测的3D点和2D-2D匹配,为查询图像生成密集的2D-3D匹配。
CPA模块将这些2D-3D匹配进行整合,通过置信度加权平均的方式,合并接近的匹配点,从而提高匹配的准确性和鲁棒性。
ViT
MLP Can Be A Good Transformer Learner
解决的问题是如何简化Vision Transformer模型并降低其计算负载,同时不牺牲性能
论文中指出,底部Transformer块中的注意力层与其后续的MLP层具有相同的熵量,表明MLP层可以激发与注意力层相同的信息量,但这些MLP层的开发不足。因此,论文提出将这些信息量低的注意力层整合到其后的MLP层中
类别不平衡
LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content
试图解决的是长尾识别问题
利用LLMs生成的内容来增强长尾识别。通过利用这些模型丰富的隐含知识,LTGC能够解析和推理原始尾部数据,生成多样化的尾部类别内容
预训练
S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data
采用3D变换器进行掩码自编码器建模,整合了可学习的光谱-空间嵌入,并使用了90%的掩码比率