CV最新论文|4月9日 arXiv更新论文合集

以下内容由马拉AI整理,今天为大家带来4月9日 arXiv 计算机视觉和模式识别相关论文:

1、Finding Visual Task Vectors

查找可视化任务向量

摘要:视觉提示是一种通过上下文示例教模型执行视觉任务的技术,无需任何额外的训练。在这项工作中,我们分析了MAE-VQGAN(一种最近的视觉提示模型)的激活,并找到了任务向量,即编码特定于任务的信息的激活。有了这种洞察力,我们证明了可以识别任务向量并使用它们来指导网络执行不同的任务,而无需提供任何输入输出示例。为了找到任务向量,我们计算每个任务的平均中间激活次数,并使用 REINFORCE 算法搜索任务向量的子集。生成的任务向量引导模型执行比原始模型更好的任务,而无需输入输出示例。

2、MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

MA-LMM:用于长期视频理解的内存增强大型多模态模型

摘要:随着大型语言模型 (LLM) 的成功,将视觉模型集成到 LLM 中以构建视觉语言基础模型最近引起了人们的更多兴趣。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA、VideoChat)只能接受有限数量的帧来理解短视频。在这项研究中,我们主要关注设计一个高效且有效的长期视频理解模型。我们建议不要像大多数现有工作那样尝试同时处理更多帧,而是以在线方式处理视频并将过去的视频信息存储在存储库中。这允许我们的模型参考历史视频内容进行长期分析,而不会超出 LLM 的上下文长度限制或 GPU 内存限制。我们的存储库可以以现成的方式无缝集成到当前的多模态 LLM 中。我们对各种视频理解任务进行了广泛的实验,例如长视频理解、视频问答和视频字幕,我们的模型可以在多个数据集上实现最先进的性能。此 https URL 中提供的代码。

3、Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Ferret-UI:使用多模态 LLM 理解接地的移动 UI

摘要:多模态大型语言模型 (MLLM) 的最新进展值得注意,然而,这些通用域 MLLM 在理解用户界面 (UI) 屏幕并与之有效交互的能力方面往往不足。在本文中,我们介绍了 Ferret-UI,这是一种新的 MLLM,专为增强对移动 UI 屏幕的理解而量身定制,配备了引用、接地和推理功能。鉴于 UI 屏幕通常表现出比自然图像更细长的纵横比,并且包含更小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”来放大细节并利用增强的视觉功能。具体来说,每个屏幕根据原始纵横比分为 2 个子图像(即纵向屏幕的水平分割和横屏的垂直分割)。两个子图像在发送到 LLM 之前是单独编码的。我们从广泛的基本 UI 任务中精心收集训练样本,例如图标识别、查找文本和小部件列表。这些示例的格式为遵循指令,带有区域注释,以方便精确参考和接地。为了增强模型的推理能力,我们进一步编译了一个用于高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在对精选数据集进行训练后,Ferret-UI 表现出对 UI 屏幕的出色理解和执行开放式指令的能力。对于模型评估,我们建立了一个包含上述所有任务的综合基准。Ferret-UI 不仅超越了大多数开源 UI MLLM,而且在所有基本 UI 任务上都超过了 GPT-4V。

4、SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

SwapAnything:在个性化视觉编辑中启用任意对象交换

摘要:对个人内容的有效编辑在使个人能够表达他们的创造力、在他们的视觉故事中编织引人入胜的叙事以及提升其视觉内容的整体质量和影响力方面发挥着关键作用。因此,在这项工作中,我们引入了 SwapAnything,这是一个新颖的框架,它可以将图像中的任何对象与引用给出的个性化概念进行交换,同时保持上下文不变。与现有的个性化主体交换方法相比,SwapAnything具有三个独特的优势:(1)精确控制任意对象和部分而不是主要主体,(2)更忠实地保留上下文像素,(3)更好地适应个性化概念到图像。首先,我们提出了有针对性的变量交换,以对潜在特征图应用区域控制,并交换掩码变量,以实现忠实的上下文保留和初始语义概念交换。然后,我们引入外观适配,在图像生成过程中,从目标位置、形状、风格和内容等方面将语义概念无缝适配到原始图像中。人工和自动评估的广泛结果表明,与基线方法相比,我们的方法在个性化交换方面有了显着改进。此外,SwapAnything 还展示了其在单个对象、多个对象、部分对象和跨域交换任务中的精确和忠实的交换能力。SwapAnything 在基于文本的交换和交换以外的任务(如对象插入)上也取得了出色的性能。

5、Learning 3D-Aware GANs from Unposed Images with Template Feature Field

使用模板特征字段从未摆置的图像中学习 3D 感知 GAN

摘要:收集训练图像的准确相机姿势已被证明可以很好地服务于 3D 感知生成对抗网络 (GAN) 的学习,但在实践中可能非常昂贵。这项工作的目标是从未摆姿势的图像中学习 3D 感知 GAN,为此,我们建议使用学习模板特征字段 (TeFF) 对训练图像进行动态姿势估计。具体来说,除了像以前的方法一样生成辐射场外,我们还要求生成器从二维语义特征中学习一个场,同时共享辐射场的密度。这样的框架使我们能够利用生成模型发现的数据集均值来获取规范的 3D 特征模板,并进一步有效地估计真实数据上的姿态参数。在各种具有挑战性的数据集上的实验结果表明,从定性和定量的角度来看,我们的方法优于最先进的替代方案。

6、Evaluating the Efficacy of Cut-and-Paste Data Augmentation in Semantic Segmentation for Satellite Imagery

评估剪切粘贴数据增强在卫星影像语义分割中的功效

摘要:卫星图像对于环境监测和城市规划等任务至关重要。通常,它依赖于语义分割或土地利用土地覆被 (LULC) 分类来对每个像素进行分类。尽管深度神经网络 (DNN) 带来了进步,但它们在分割任务中的性能受到诸如标记数据可用性有限、类别不平衡以及卫星图像固有的可变性和复杂性等挑战的阻碍。为了缓解这些问题,我们的研究探讨了剪切和粘贴增强技术在卫星图像中语义分割的有效性。我们将这种通常需要标记实例的增强调整为语义分割的情况。通过利用语义分割标签中的连接组件,我们提取实例,然后在训练期间随机粘贴这些实例。使用 DynamicEarthNet 数据集和 U-Net 模型进行评估,我们发现这种增强显着提高了测试集的 mIoU 分数,从 37.9 提高到 44.1。这一发现凸显了剪切和粘贴增强在提高卫星图像中语义分割模型的泛化能力方面的潜力。

7、Retrieval-Augmented Open-Vocabulary Object Detection

检索增强开放词汇对象检测

摘要:开放词汇对象检测 (OVD) 已与视觉语言模型 (VLM) 一起进行研究,以检测预训练类别之外的新对象。以前的方法提高了扩展探测器知识的泛化能力,使用带有附加“类”名称的“正”伪标签,例如袜子、iPod 和鳄鱼。为了在两个方面扩展以前的方法,我们提出了检索增强损失和视觉特征(RALF)。我们的方法检索相关的“负”类并增强损失函数。此外,视觉特征还通过类的“语言化概念”得到增强,例如,戴在脚上、手持音乐播放器和锋利的牙齿。具体来说,RALF 由两个模块组成:检索增强损失 (RAL) 和检索增强视觉特征 (RAF)。RAL构成两个损失,反映了与否定词汇的语义相似性。此外,RAF 还使用来自大型语言模型 (LLM) 的口头概念来增强视觉特征。我们的实验证明了RALF在COCO和LVIS基准数据集上的有效性。我们在 COCO 数据集的新类别上实现了高达 3.4 框 AP 的改进,在 LVIS 数据集上实现了 3.6 个掩码 AP_{\text{r}} 增益。代码可在此 https URL 获得。

8、SphereHead: Stable 3D Full-head Synthesis with Spherical Tri-plane Representation

SphereHead:具有球面三平面表示的稳定 3D 全头合成

摘要:虽然 3D 感知生成对抗网络 (GAN) 的最新进展有助于近正面视角人脸合成的发展,但全面合成从各个角度可见的完整 3D 头部的挑战仍然存在。尽管 PanoHead 证明了使用具有正面和背面视图图像的大规模数据集进行全头合成的可能性,但它经常会导致背面视图出现伪影。根据我们的深入分析,我们发现原因主要有两方面。首先,从网络架构的角度来看,我们发现所利用的三平面/三网格表示空间中的每个平面都倾向于混淆两侧的特征,从而导致“镜像”伪影(例如,眼镜出现在背面)。其次,从数据监督方面,我们发现现有的3D GANs鉴别器训练主要关注渲染图像本身的质量,而不太关心其与渲染视角的合理性。这使得在非正面视图中生成“面子”成为可能,因为它很容易愚弄鉴别器。作为回应,我们提出了 SphereHead,这是一种球面坐标系中的一种新颖的三平面表示,它符合人头的几何特征,并有效地减轻了许多生成的伪影。我们进一步为鉴别器引入了视图-图像一致性损失,以强调相机参数和图像的对应关系。这些努力的结合带来了视觉上优越的结果,并大大减少了伪影。我们的代码和数据集在此 https URL 上公开提供。

9、Normalizing Flows on the Product Space of SO(3) Manifolds for Probabilistic Human Pose Modeling

用于概率人体姿态建模的 SO(3) 流形乘积空间上的归一化

摘要:归一化流动已经证明了它们在欧几里得空间中密度估计的有效性,但它们在旋转表示中的应用,在机器人或人体姿态建模等各个领域至关重要,但仍然没有得到充分探索。人体姿势的概率模型可以从严格考虑人体关节旋转性质的方法中受益。为此,我们引入了 HuProSO3,这是一种在 SO(3) 流形的高维乘积空间上运行的归一化流动模型,模拟了具有三个自由度的人体关节的关节分布。HuProSO3 相对于最先进方法的优势体现在它在三种不同应用中的卓越建模精度及其评估确切可能性的能力。这项工作不仅解决了在SO(3)流形上学习密度的技术挑战,而且对相关三维旋转的概率回归很重要的领域也具有更广泛的意义。

10、MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

MoMA:用于快速个性化图像生成的多模态 LLM 适配器

摘要:在本文中,我们介绍了MoMA:一个开放词汇、免训练的个性化图像模型,具有灵活的零镜头功能。随着基础文本到图像模型的快速发展,对强大的图像到图像翻译的需求也在增长。为了满足这一需求,MoMA专注于主题驱动的个性化图像生成。利用开源的多模态大型语言模型 (MLLM),我们训练 MoMA 扮演特征提取器和生成器的双重角色。这种方法有效地协同了参考图像和文本提示信息,以产生有价值的图像特征,从而促进了图像扩散模型。为了更好地利用生成的特征,我们进一步引入了一种新颖的自注意力快捷方式方法,该方法可以有效地将图像特征转移到图像扩散模型中,从而改善生成图像中目标对象的相似性。值得注意的是,作为一个无需调谐的即插即用模块,我们的模型只需要一个参考图像,并且在生成具有高细节保真度、增强身份保留和快速忠实度的图像方面优于现有方法。我们的工作是开源的,因此可以普遍访问这些进步。

11、CoReS: Orchestrating the Dance of Reasoning and Segmentation

CoReS:编排推理和分割之舞

摘要:推理分割任务需要对复杂的查询进行细致入微的理解,以准确定位对象区域,这引起了越来越多的关注。然而,多模态大型语言模型 (MLLM) 经常发现很难准确地本地化复杂推理上下文中描述的对象。我们认为,推理分割的行为应该反映人类视觉搜索的认知阶段,其中每一步都是对最终对象的思想的逐步完善。因此,我们引入了推理和分割链(CoReS),发现这种自上而下的视觉层次结构确实增强了视觉搜索过程。具体来说,我们提出了一种双链结构,该结构可生成多模态、类似链的输出,以帮助分割过程。此外,为了将 MLLM 的输出引导到这个预期的层次结构中,我们结合了上下文中的输入作为指导。大量的实验证明了我们的 CoReS 的卓越性能,在 ReasonSeg 数据集上比最先进的方法高出 7.1%。代码将在此 https URL 上发布。

12、NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement

NAF-DPM:一种用于文档增强的非线性无激活扩散概率模型

摘要:真实世界的文档可能会遭受各种形式的退化,通常会导致光学字符识别 (OCR) 系统的准确性降低。因此,一个关键的预处理步骤对于消除噪音,同时保留文本和文档的关键特征至关重要。在本文中,我们提出了NAF-DPM,这是一种基于扩散概率模型(DPM)的新型生成框架,旨在恢复降级文档的原始质量。虽然 DPM 因其生成的高质量图像而受到认可,但它们也以其较大的推理时间而闻名。为了缓解这个问题,我们为 DPM 提供了一个高效的非线性无激活 (NAF) 网络,并使用常微分方程的快速求解器作为采样器,这些求解器可以在几次迭代中收敛。为了更好地保留文本字符,我们引入了一个基于卷积递归神经网络的附加可微模块,模拟 OCR 系统在训练过程中的行为。在各种数据集上进行的实验证明了我们方法的优越性,在像素级和感知相似性指标方面实现了最先进的性能。此外,结果表明,OCR系统在转录由我们的框架增强的真实世界文档图像时,显著减少了字符错误。代码和预训练模型可在此 https URL 中找到。

13、AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation

AlignZeg:缓解零样本语义分割的目标错位

摘要:一个损害零样本视觉识别性能的严重问题被称为目标错位,即学习目标优先考虑提高看得见的班级而不是看不见的班级的识别准确性,而后者才是真正要追求的目标。这个问题在零镜头图像分割中变得更加重要,因为更强的(即像素级)监督在可见和不可见的类别之间带来了更大的差距。为了缓解这种情况,我们提出了一种名为 AlignZeg 的新架构,它体现了对分割管道的全面改进,包括提案提取、分类和校正,以更好地适应零样本分割的目标。(1)相互精炼的提案提取。AlignZeg 利用掩码查询和视觉特征之间的相互交互,促进了详细的与类无关的掩码提案提取。(2)泛化增强提案分类。AlignZeg 引入了合成数据,并整合了多个背景原型,以分配更通用的特征空间。(3)预测偏差校正。在推理阶段,AlignZeg 使用类指标来查找潜在的未可见类建议,然后进行预测后处理以纠正预测偏差。实验表明,AlignZeg 显著增强了零样本语义分割,如 hIoU 平均增加 3.8%,主要归因于识别看不见的类别的改进 7.1%,我们进一步验证了这种改进来自缓解客观错位问题。

14、YaART: Yet Another ART Rendering Technology

YaART:又一种ART渲染技术

摘要:在快速发展的生成模型领域,高效、高保真文本到图像扩散系统的开发是一个重要的前沿领域。本研究介绍了 YaART,这是一种新型生产级文本到图像级联扩散模型,使用人类反馈强化学习 (RLHF) 与人类偏好保持一致。在YaART的开发过程中,我们特别关注模型和训练数据集大小的选择,这些方面以前没有系统地研究过文本到图像级联扩散模型。特别是,我们全面分析了这些选择如何影响训练过程的效率和生成的图像的质量,这在实践中非常重要。此外,我们证明了在较小数据集上训练的高质量图像模型可以成功地与在较大数据集上训练的模型竞争,从而建立更有效的扩散模型训练场景。从质量的角度来看,YaART始终受到用户青睐,而不是许多现有的最先进的型号。

15、BinaryDM: Towards Accurate Binarization of Diffusion Model

BinaryDM:实现扩散模型的精确二值化

摘要:随着扩散模型(DM)的进步和计算需求的大幅增加,量化成为获得紧凑高效的低位DM的实用解决方案。然而,高度离散的表示会导致严重的精度下降,阻碍扩散模型对超低位宽的量化。在本文中,我们提出了BinaryDM,这是一种新颖的精确量化感知训练方法,用于将扩散模型的权重推向1位的极限。首先,我们提出了一个可学习的多基二值化器(LMB)来恢复二值化DM生成的表征,从而改善了对DM至关重要的表征细节信息。 其次,应用低秩表示模拟(LRM)来增强DM的二值化感知优化,缓解细粒度对齐导致的优化方向模糊性。此外,将渐进式初始化策略应用于训练DM,以避免收敛困难。综合实验表明,在超低位宽下,与DM的SOTA量化方法相比,BinaryDM实现了显著的精度和效率提升。作为第一个扩散模型的二值化方法,BinaryDM 通过 1 位权重和 4 位激活实现了令人印象深刻的 16.0 倍 FLOP 和 27.1 倍存储节省,展示了其在资源有限场景下部署 DM 的巨大优势和潜力。

16、Automatic Controllable Colorization via Imagination

通过想象力自动可控着色

摘要:我们提出了一个允许迭代编辑和修改的自动着色框架。我们框架的核心在于想象力模块:通过理解灰度图像中的内容,我们利用预先训练的图像生成模型来生成包含相同内容的多个图像。这些图像可作为着色的参考,模仿人类专家的过程。由于合成的图像可能不完美或与原始灰度图像不同,因此我们提出了一个参考细化模块来选择最佳参考合成。与以前的大多数端到端自动着色算法不同,我们的框架允许对着色结果进行迭代和局部修改,因为我们显式地对着色样本进行建模。大量的实验证明了我们的框架在可编辑性和灵活性方面优于现有的自动着色算法。项目页面:此 https URL。

17、MLP Can Be A Good Transformer Learner

MLP 可以成为一个好的变压器学习者

摘要:自注意力机制是 Transformer 的关键,但经常因其计算需求而受到批评。以前的令牌修剪工作从计算冗余的角度来激励他们的方法,但仍然需要加载整个网络,并且需要相同的内存成本。本文介绍了一种新的策略,该策略通过选择性地去除非必要的注意力层来简化视觉转换器并减少计算负载,并遵循熵考虑。我们发现,对于底部块中的注意力层,其后续的MLP层(即两个前馈层)可以引发相同的熵量。同时,伴随的MLP没有得到充分利用,因为它们与顶部块中的MLP相比表现出较小的特征熵。因此,我们建议将无信息的注意力层集成到它们的后续对应物中,方法是将它们退化为相同的映射,在某些变压器模块中仅产生MLP。在ImageNet-1k上的实验结果表明,所提方法可以去除40%的DeiT-B注意力层,在不影响性能的情况下提高吞吐量和内存限制。代码可在此 https URL 中找到。

18、3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules

3D-COCO:MS-COCO数据集的扩展,用于图像检测和3D重建模块

摘要:我们介绍了 3D-COCO,它是原始 MS-COCO 数据集的扩展,提供 3D 模型和 2D-3D 对齐注释。3D-COCO 旨在实现计算机视觉任务,例如可通过文本、2D 图像和 3D CAD 模型查询进行配置的 3D 重建或图像检测。我们使用在 ShapeNet 和 Objaverse 上收集的 28K 3D 模型完成了现有的 MS-COCO 数据集。通过使用基于 IoU 的方法,我们将每个 MS-COCO 注释与最佳 3D 模型进行匹配,以提供 2D-3D 对齐。3D-COCO的开源性质是首次亮相,应该为3D相关主题的新研究铺平道路。数据集及其源代码可在此 https URL 上找到

19、Learning a Category-level Object Pose Estimator without Pose Annotations

学习没有姿态注释的类别级对象姿态估计器

摘要:3D 物体姿态估计是一项具有挑战性的任务。以往的作品总是需要上千张带有注释姿态的物体图像来学习3D姿态对应关系,这对于标注来说既费力又费时。在本文中,我们建议学习一个没有姿态注释的类别级 3D 对象姿态估计器。我们没有使用手动注释的图像,而是利用扩散模型(例如,Zero-1-to-3)在受控姿态差异下生成一组图像,并建议使用这些图像学习我们的对象姿态估计器。直接使用原始扩散模型会导致图像具有嘈杂的姿势和伪影。为了解决这个问题,我们首先利用从专门设计的对比姿态学习中学习的图像编码器来过滤不合理的细节并提取图像特征图。此外,我们提出了一种新颖的学习策略,允许模型从这些生成的图像集中学习对象姿势,而无需知道它们的规范姿势的对齐方式。实验结果表明,该方法具有从单镜头设置(作为姿态定义)进行类别级物体姿态估计的能力,同时在少数镜头类别级物体姿态估计基准上明显优于其他最先进的方法。

20、MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

MULTIFLOW:转向与任务无关的视觉语言修剪

摘要:虽然视觉语言模型 (VLM) 在迁移学习方面表现出色,但由于其参数数量众多,计算成本很高。为了解决这个问题,通过模型修剪删除参数是一个可行的解决方案。但是,VLM 的现有技术是特定于任务的,因此需要针对每个感兴趣的新任务从头开始修剪网络。在这项工作中,我们探索了一个新的方向:与任务无关的视觉语言修剪(TA-VLP)。给定一个预训练的 VLM,目标是找到一个独特的修剪对应物,可以转移到多个未知的下游任务。在这种具有挑战性的设置中,预训练模型中已经编码的可转移表示是需要保留的关键方面。因此,我们提出了多模态流修剪 (MULTIFLOW),这是 TA-VLP 的第一个无梯度修剪框架,其中:(i) 参数的重要性通过结合其连接的神经元的显著性,以其大小和信息流来表示;(ii)修剪是由预训练后VLM参数的涌现(多模态)分布驱动的。我们在 TA-VLP 的背景下对八种最先进的修剪算法进行了基准测试,试验了两个 VLM、三个视觉语言任务和三个修剪比率。我们的实验结果表明,在绝大多数情况下,MULTIFLOW的表现优于最近复杂的组合竞争对手,为解决TA-VLP问题铺平了道路。该代码在此 https URL 上公开提供。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值