CV最新论文|3月26日 arXiv更新论文合集

以下内容由马拉AI整理,今天为大家带来3月26日 arXiv 计算机视觉和模式识别相关论文:

1、

Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding

Calib3D:校准模型首选项以实现可靠的 3D 场景理解

摘要:安全关键的 3D 场景理解任务不仅需要 3D 感知模型的准确预测,还需要可靠的预测。本研究介绍了Calib3D,这是一项从不确定性估计角度对3D场景理解模型的可靠性进行基准测试和审查的开创性工作。我们在 10 个不同的 3D 数据集中全面评估了 28 个最先进的模型,揭示了应对 3D 场景理解中的偶然性和认识不确定性的深刻现象。我们发现,尽管达到了令人印象深刻的准确性水平,但现有模型经常无法提供可靠的不确定性估计 - 这是一个严重破坏其在安全敏感环境中的适用性的陷阱。通过对网络容量、LiDAR 表示、光栅化分辨率和 3D 数据增强技术等关键因素的广泛分析,我们将这些方面与模型校准效果直接相关联。此外,我们还介绍了 DeptS,这是一种旨在增强 3D 模型校准的新型深度感知缩放方法。在各种配置下进行的广泛实验验证了我们方法的优越性。我们希望这项工作可以作为促进可靠的 3D 场景理解的基石。代码和基准测试工具包是公开的。

2、

Optimizing LiDAR Placements for Robust Driving Perception in Adverse Conditions

优化 LiDAR 位置,在不利条件下实现稳健的驾驶感知

摘要:驾驶感知系统在前所未有的条件下的鲁棒性对于安全关键型应用至关重要。最新的进展促使人们对多激光雷达感知的兴趣日益浓厚。然而,主流的驾驶数据集主要使用单激光雷达系统,收集的数据没有不利条件,无法准确捕捉现实世界环境的复杂性。为了解决这些差距,我们提出了 Place3D,这是一个全周期管道,包括 LiDAR 放置优化、数据生成和下游评估。我们的框架有三个吸引人的贡献。1) 为了确定多 LiDAR 系统最有效的配置,我们引入了语义占用网格的替代指标 (M-SOG) 来评估 LiDAR 放置质量。2)利用M-SOG指标,我们提出了一种新的优化策略来优化多LiDAR的放置。3)围绕多条件多激光雷达感知的主题,我们收集了来自清洁和不利条件的364,000帧数据集。大量实验表明,使用我们的方法优化的 LiDAR 放置优于各种基线。我们在各种恶劣天气和传感器故障条件下,在 3D 目标检测和 LiDAR 语义分割任务中都表现出卓越的鲁棒性。代码和基准测试工具包是公开的。

3、

FlashFace: Human Image Personalization with High-fidelity Identity Preservation

FlashFace:具有高保真身份保护的人类图像个性化

摘要:这项工作介绍了FlashFace,这是一个实用的工具,用户可以通过提供一张或几张参考脸部图像和文本提示来轻松个性化自己的照片。我们的方法与现有的人类照片定制方法不同,具有更高的保真度和更好的指令遵循,这得益于两种微妙的设计。首先,我们将人脸标识编码为一系列特征图,而不是像现有技术那样使用一个图像标记,从而允许模型保留参考人脸的更多细节(例如,疤痕、纹身和脸型)。其次,我们引入了一种解纠缠的整合策略,以平衡文本到图像生成过程中的文本和图像引导,缓解参考面孔与文本提示之间的冲突(例如,将成年人个性化为“孩子”或“老人”)。大量的实验结果证明了我们的方法在各种应用中的有效性,包括人体图像个性化、语言提示下的换脸、将虚拟角色变成真人等。 项目页面:此 https URL。

4、

DreamLIP: Language-Image Pre-training with Long Captions

DreamLIP:带有长字幕的语言图像预训练

摘要:语言图像预训练很大程度上取决于文本描述其配对图像的精确度和彻底性。然而,在实践中,图像的内容可能非常丰富,以至于要很好地描述它们需要冗长的标题(例如,有 10 个句子),这在现有数据集中通常是缺失的。因此,目前没有明确的证据证明语言图像预训练是否以及如何从长字幕中受益。为了弄清楚这一点,我们首先使用预先训练的多模态大型语言模型(MLLM)对30M张图像进行详细描述的重新标题,然后在对比学习框架下研究结果标题的用法。我们观察到,长标题中的每个句子都很可能部分描述图像(例如,一个物体)。受此启发,我们建议从文本标签中动态采样子标题以构建多个正对,并引入分组损失以自监督的方式将每个子标题的嵌入与其相应的局部图像补丁相匹配。大量下游任务的实验结果表明,我们的方法(称为DreamLIP)与以前的替代方案相比具有一贯的优越性,突出了其细粒度的表示能力。值得注意的是,在图像文本检索和语义分割的任务上,我们用 30M 图像-文本对训练的模型比用 400M 对训练的 CLIP 取得了相当甚至更好的性能。项目页面位于此 https URL。

5、

Invertible Diffusion Models for Compressed Sensing

用于压缩传感的可逆扩散模型

摘要:虽然深度神经网络 (NN) 通过提高重建质量显着推进了图像压缩感知 (CS),但从头开始训练当前 CS NN 的必要性限制了它们的有效性并阻碍了快速部署。尽管最近的方法利用预先训练的扩散模型进行图像重建,但它们在推理缓慢和对 CS 的适应性有限方面存在困难。为了应对这些挑战,本文提出了可逆扩散模型(IDM),这是一种新型高效的、基于端到端扩散的CS方法。IDM将大规模扩散采样过程重新用作重建模型,并对其进行端到端微调,以直接从CS测量中恢复原始图像,从而超越了一步噪声估计学习的传统范式。为了实现这种内存密集型的端到端微调,我们提出了一种新颖的两级可逆设计,将(1)多步采样过程和(2)每个步骤中的噪声估计U-Net转换为可逆网络。因此,大多数中间功能在训练期间被清除,以减少高达 93.8% 的 GPU 内存。此外,我们还开发了一套轻量级模块,将测量结果注入噪声估计器,以进一步促进重建。实验表明,IDM在PSNR中比现有的最先进的CS网络高出2.64dB。与最近基于扩散模型的DDNM方法相比,我们的IDM实现了高达10.09dB PSNR增益和14.54倍的推理速度。

6、

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

TRIP:图像到视频扩散模型的图像噪声先验时间残差学习

摘要:文本到视频生成的最新进展证明了强大的扩散模型的实用性。然而,在塑造扩散模型以对静态图像进行动画处理(即图像到视频生成)时,这个问题并非微不足道。困难在于后续动画帧的扩散过程不仅要保持与给定图像的忠实对齐,还要追求相邻帧之间的时间连贯性。为了缓解这种情况,我们提出了TRIP,这是一种图像到视频扩散范式的新配方,它以从静态图像派生的图像噪声为中心,共同触发帧间关系推理,并通过时间残差学习简化连贯的时间建模。从技术上讲,图像噪声先验首先通过基于静态图像和噪声视频潜伏码的一步向后扩散过程获得。接下来,TRIP执行类似残差的双路径方案进行噪声预测:1)直接将图像噪声作为每帧的参考噪声的快捷路径,以放大第一帧与后续帧之间的对齐;2)残余路径,在噪声视频和静态图像潜在代码上使用3D-UNet来实现帧间关系推理,从而简化对每帧残余噪声的学习。此外,每帧的参考噪声和残余噪声都通过注意力机制动态合并,以生成最终的视频。在WebVid-10M、DTDB和MSR-VTT数据集上的大量实验证明了我们的TRIP在图像到视频生成方面的有效性。请参阅我们的项目页面,网址为 https URL。

7、

SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer

SD-DiT:释放扩散变压器中自监督辨别的力量

摘要:扩散变压器(DiT)已成为图像生成扩散模型的新趋势。鉴于典型 DiT 的收敛速度极慢,最近的突破是由掩码策略推动的,该策略通过额外的图像内上下文学习显着提高了 DiT 的训练效率。尽管取得了这些进展,掩码策略仍然受到两个固有的局限性:(a)训练-推理差异和(b)掩码重建和生成扩散过程之间的模糊关系,导致DiT的训练不理想。在这项工作中,我们通过新颖地释放自我监督的辨别知识来促进 DiT 培训,从而解决了这些局限性。从技术上讲,我们以师生的方式构建我们的 DiT。师生判别对建立在沿同一概率流常微分方程 (PF-ODE) 的扩散噪声之上。我们没有在 DiT 编码器和解码器上应用掩码重建损失,而是将 DiT 编码器和解码器解耦,以分别解决判别和生成目标。特别是,通过使用学生和教师的 DiT 编码器对判别对进行编码,设计了一种新的判别损失,以鼓励自监督嵌入空间中的图像间对齐。之后,将学生样本送入学生 DiT 解码器以执行典型的生成扩散任务。在ImageNet数据集上进行了大量的实验,我们的方法在训练成本和生成能力之间实现了竞争平衡。

8、

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

VP3D:释放 2D 视觉提示,实现文本到 3D 生成

摘要:最近在文本到 3D 生成方面的创新以分数蒸馏采样 (SDS) 为特色,它通过直接从 2D 扩散模型中提取先验知识,实现隐式 3D 模型 (NeRF) 的零样本学习。然而,当前基于 SDS 的模型仍然难以处理复杂的文本提示,并且通常会导致 3D 模型失真,纹理不切实际或交叉视图不一致问题。在这项工作中,我们引入了一种新颖的视觉提示引导文本到3D扩散模型(VP3D),该模型明确释放了2D视觉提示中的视觉外观知识,以促进文本到3D的生成。VP3D不是仅仅通过文本提示来监督SDS,而是首先利用2D扩散模型从输入文本中生成高质量的图像,然后作为视觉提示,以明确的视觉外观加强SDS优化。同时,我们将SDS优化与额外的可微分奖励函数相结合,该函数鼓励渲染3D模型的图像,使其在视觉上更好地与2D视觉提示对齐,并在语义上与文本提示匹配。通过大量的实验,我们发现VP3D中的2D视觉提示大大简化了3D模型视觉外观的学习,从而带来了更高的视觉保真度和更详细的纹理。同样吸引人的是,当用给定的参考图像替换自生成的视觉提示时,VP3D能够触发程式化文本到3D生成的新任务。我们的项目页面位于此 https URL。

9、

Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution

学习视频超分辨率扩散模型的空间适应和时间相干性

摘要:扩散模型正处于图像超分辨率任务的临界点。然而,利用扩散模型实现视频超分辨率并非易事,这不仅需要保留从低分辨率到高分辨率视频的视觉外观,还需要保持视频帧之间的时间一致性。在本文中,我们提出了一种新的方法,追求空间适应和时间相干(SATeCo),用于视频超分辨率。SATeCo 以从低分辨率视频中学习时空引导为中心,以校准潜空间高分辨率视频去噪和像素空间视频重建。从技术上讲,SATeCo 冻结了预训练的 UNet 和 VAE 的所有参数,并且仅在 UNet 和 VAE 的解码器中优化了两个刻意设计的空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块。SFA 通过自适应估计每个像素的仿射参数来调制帧特征,从而保证高分辨率帧合成的像素级指导。TFA 通过自注意力深入研究 3D 局部窗口 (tubelet) 内的特征相互作用,并在 Tubelet 与其低分辨率对应项之间执行交叉注意力以指导时间特征对齐。在 REDS4 和 Vid4 数据集上进行的大量实验证明了我们方法的有效性。

10、

Visual CoT: Unleashing Chain-of-Thought Reasoning in Multi-Modal Language Models

Visual CoT:在多模态语言模型中释放思维链推理

摘要:本文介绍了Visual CoT,这是一种新颖的管道,通过结合可视化思维链(CoT)推理来利用多模态大型语言模型(MLLM)的推理功能。虽然MLLM在各种视觉任务中显示出前景,但它们往往缺乏可解释性,并且难以处理复杂的视觉输入。为了应对这些挑战,我们提出了一个多轮次处理管道,该管道动态地关注视觉输入并提供可解释的思想。我们收集并介绍了包含 373k 问答对的 Visual CoT 数据集,并用中间边界框注释,突出显示了回答问题所必需的关键区域。重要的是,引入的基准能够在需要特定局部区域识别的场景中评估MLLM。大量的实验证明了我们的框架的有效性,并揭示了更好的推理策略。Visual CoT 数据集、基准测试和预训练模型可用于促进该方向的进一步研究。

11、

Understanding Long Videos in One Multimodal Language Model Pass

在一个多模态语言模型通道中理解长视频

摘要:大型语言模型 (LLM) 以包含对世界知识的强烈意识而闻名,它允许最近的方法在长视频理解基准测试中取得出色的性能,但推理成本很高。在这项工作中,我们首先提出了可能性选择,这是一种简单的技术,可以在长视频基准测试中常见的多项选择任务中解锁自回归 LLM 中的更快推理。除了更快的推理速度外,我们发现生成的模型在长视频任务上产生了令人惊讶的好准确性,即使没有视频特定信息。在此基础上,我们注入了从现成的预训练模型中提取的以视频为中心的视频特定对象的信息,并利用自然语言作为信息融合的媒介。我们由此产生的多模态视频理解 (MVU) 框架在长视频和细粒度动作识别基准测试中展示了最先进的性能。代码可在以下位置获得:此 https URL

12、

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

通过丰富的上下文和判别性嵌入进行组合视频检索

摘要:组合视频检索 (CoVR) 是计算机视觉中一个具有挑战性的问题,最近强调了修改文本与视觉查询的集成,以便在大型数据库中进行更复杂的视频搜索。现有作品主要依靠视觉查询结合修改文本来区分相关视频。但是,这种策略很难在检索到的目标视频中完全保留丰富的特定于查询的上下文,并且仅使用视觉嵌入来表示目标视频。我们引入了一种新颖的 CoVR 框架,该框架利用详细的语言描述来显式编码特定于查询的上下文信息,并学习仅视觉、仅文本和视觉文本的判别性嵌入,以便更好地对齐以准确检索匹配的目标视频。我们提出的框架可以灵活地用于合成视频(CoVR)和图像(CoIR)检索任务。在三个数据集上的实验表明,我们的方法在 CovR 和零样本 CoIR 任务中都获得了最先进的性能,在 recall@K=1 分数方面获得了高达 7% 左右的收益。我们对 WebViD-CoVR 数据集的代码、模型和详细语言描述可在 \url{this https URL}

13、

DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving

DriveCoT:将思维链推理与端到端驱动相结合

摘要:近年来,端到端驾驶取得了重大进展,在开环和闭环设置下都展示了系统简单性和具有竞争力的驾驶性能等优势。然而,其驾驶决策缺乏可解释性和可控性,阻碍了端到端驾驶系统的实际部署。在本文中,我们利用 CARLA 模拟器收集了一个名为 DriveCoT 的综合端到端驾驶数据集。它包含传感器数据、控制决策和思维链标签,以指示推理过程。我们利用 CARLA 排行榜 2.0 中具有挑战性的驾驶场景,包括高速驾驶和变道,并提出基于规则的专家策略来控制车辆并为其不同驾驶方面的推理过程和最终决策生成地面实况标签。该数据集可以作为开环端到端驾驶基准,从而能够评估各个思维链方面的准确性和最终决策。此外,我们提出了一个名为DriveCoT-Agent的基线模型,该模型在我们的数据集上进行了训练,以生成思维链预测和最终决策。经过训练的模型在开环和闭环评估中都表现出强大的性能,证明了我们提出的数据集的有效性。

14、

Mapping Image Transformations Onto Pixel Processor Arrays

将图像转换映射到像素处理器阵列

摘要:像素处理器阵列 (PPA) 提出了一种新的视觉传感器/处理器架构,由处理器元件的 SIMD 阵列组成,每个元件都能够捕获、存储、处理和本地通信。这种设备允许直接在焦平面上有效地存储和操作视觉数据,但也需要发明新的方法和算法,适用于大规模并行的细粒度处理器阵列。在本文中,我们演示了如何直接在 PPA 上执行各种图像转换,包括剪切、旋转和缩放。使用SCAMP-5视觉芯片提供实现细节,该芯片包含一个256x256像素并行阵列。我们执行图像转换的方法有效地利用了蜂窝处理器阵列中的并行计算,最大限度地减少了所需的SIMD指令数量。这些基本的图像转换是许多视觉任务的重要构建块。本文旨在为未来的PPA研究提供参考,同时展示PPA架构的灵活性。

15、

Comp4D: LLM-Guided Compositional 4D Scene Generation

Comp4D:LLM 引导的合成 4D 场景生成

摘要:用于 2D 和 3D 内容创建的扩散模型的最新进展引发了对生成 4D 内容的兴趣激增。然而,3D 场景数据集的稀缺性限制了当前的方法主要以对象为中心的生成。为了克服这一限制,我们提出了Comp4D,这是一种用于合成4D生成的新框架。与生成整个场景的单一 4D 表示的传统方法不同,Comp4D 创新地单独构建场景中的每个 4D 对象。利用大型语言模型 (LLM),该框架首先将输入文本提示分解为不同的实体并绘制出它们的轨迹。然后,它通过沿着这些对象的指定路径精确定位这些对象来构建合成 4D 场景。为了优化场景,我们的方法采用了由预定义轨迹引导的合成乐谱蒸馏技术,利用跨文本到图像、文本到视频和文本到3D域的预训练扩散模型。大量的实验表明,与现有技术相比,我们具有出色的 4D 内容创建能力,展示了卓越的视觉质量、运动保真度和增强的对象交互。

16、

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

做你自己:多主题文本到图像生成的有限注意力

摘要:文本到图像扩散模型具有前所未有的生成多样化和高质量图像的能力。但是,它们通常难以忠实地捕获包含多个主题的复杂输入提示的预期语义。最近,引入了许多布局到图像的扩展来改善用户控制,旨在本地化由特定标记表示的主题。然而,这些方法经常产生语义上不准确的图像,尤其是在处理多个语义或视觉上相似的主题时。在这项工作中,我们研究和分析了这些局限性的原因。我们的探索揭示了主要问题源于去噪过程中主体之间无意的语义泄漏。这种泄漏归因于扩散模型的注意力层,这些注意力层倾向于混合不同主体的视觉特征。为了解决这些问题,我们引入了 Bounded Attention,这是一种无需训练的方法,用于在采样过程中限制信息流。有限注意力可以防止受试者之间的有害泄漏,并能够引导一代人促进每个受试者的个性,即使有复杂的多受试者条件反射。通过广泛的实验,我们证明了我们的方法能够生成多个主题,这些主题可以更好地与给定的提示和布局保持一致。

17、

GSDF: 3DGS Meets SDF for Improved Rendering and Reconstruction

GSDF:3DGS 与 SDF 相结合,以改进渲染和重建

摘要:从多视图图像呈现 3D 场景仍然是计算机视觉和计算机图形学的核心和长期挑战。两个主要要求在于渲染和重建。值得注意的是,SOTA渲染质量通常是通过神经体积渲染技术实现的,该技术依赖于聚合的点/基元颜色,而忽略了底层的场景几何体。神经隐式表面的学习源于神经渲染的成功。当前的作品要么限制密度场的分布,要么限制基元的形状,导致渲染质量下降和学习场景表面的缺陷。这些方法的功效受到所选神经表征的固有约束的限制,该神经表征难以捕捉精细的表面细节,尤其是对于更大、更复杂的场景。为了解决这些问题,我们推出了 GSDF,这是一种新颖的双分支架构,它结合了灵活高效的 3D 高斯飞溅 (3DGS) 表示与神经符号距离场 (SDF) 的优点。其核心思想是利用和增强每个分支的优势,同时通过相互指导和联合监督来减轻其局限性。我们在不同的场景中展示了我们的设计释放了更准确、更详细的表面重建的潜力,同时有利于 3DGS 渲染,其结构与底层几何结构更一致。

18、

TwinLiteNetPlus: A Stronger Model for Real-time Drivable Area and Lane Segmentation

TwinLiteNetPlus:用于实时驾驶区域和车道分割的更强大模型

摘要:语义分割对于自动驾驶至关重要,特别是对于可驾驶区域和车道分割,确保安全和导航。为了解决当前最先进的 (SOTA) 模型的高计算成本问题,本文介绍了 TwinLiteNetPlus (TwinLiteNet),这是一个擅长平衡效率和准确性的模型。TwinLiteNet^+ 集成了标准和深度可分离的膨胀卷积,在保持高精度的同时降低了复杂性。它有四种配置,从强大的 194 万参数 TwinLiteNet^+_{\text{Large}} 到超紧凑的 34K 参数 TwinLiteNet^+_{\text{Nano}}。值得一提的是,TwinLiteNet^+_{\text{Large}} 在可驾驶区域分割方面达到了 92.9% 的 mIoU,在车道分割方面达到了 34.2% 的 IoU。这些结果明显优于当前 SOTA 模型的结果,同时与现有 SOTA 模型相比,浮点运算 (FLOP) 的计算成本降低了大约 11 倍。TwinLiteNet^+ 在各种嵌入式设备上进行了广泛测试,展现了良好的延迟和能效,凸显了其对实际自动驾驶汽车应用的适用性。

19、

Isolated Diffusion: Optimizing Multi-Concept Text-to-Image Generation Training-Freely with Isolated Diffusion Guidance

隔离扩散:优化多概念文本到图像生成训练-使用隔离扩散引导自由

摘要:大规模文本到图像扩散模型在给定目标文本提示的情况下合成高质量和多样化的图像方面取得了巨大成功。尽管具有革命性的图像生成能力,但在许多情况下,当前最先进的模型仍然难以准确处理多概念生成。这种现象被称为“概念出血”,表现为各种概念的意外重叠或合并。本文提出了一种文本到图像扩散模型的通用方法,以解决复杂场景中不同主体及其依恋之间的相互干扰,追求更好的文本-图像一致性。其核心思想是将不同概念的合成过程隔离开来。我们建议使用拆分文本提示将每个附件分别绑定到相应的主题。此外,我们引入了一种修正方法来解决多主体合成中的概念出血问题。我们首先依靠预先训练的对象检测和分割模型来获得受试者的布局。然后,我们用相应的文本提示将每个主题单独隔离和重新合成,以避免相互干扰。总体而言,我们实现了一种名为Isolated Diffusion的免训练策略,以优化多概念文本到图像的合成。它与最新的 Stable Diffusion XL (SDXL) 和以前的 Stable Diffusion (SD) 型号兼容。我们将我们的方法与使用各种多概念文本提示的替代方法进行了比较,并证明了其在文本图像一致性和用户研究方面的明显优势。

20、

Hyperspherical Classification with Dynamic Label-to-Prototype Assignment

具有动态标签到原型分配的超球形分类

摘要:为了提高参数化softmax分类器对度量空间的利用率,最近的研究建议用非参数替代方法代替它。尽管非参数分类器可以提供更好的度量空间利用率,但它带来了捕获类间关系的挑战。先前的非参数分类器的一个共同特征是在训练期间将标签静态分配给原型,即每个原型在整个训练过程中始终代表一个类。与以前的工作正交,我们提出了一种简单而有效的方法来优化训练期间分配给每个原型的类别(标签到原型分配)。为此,我们将该问题形式化为网络参数和标签到原型分配映射的两步优化目标。我们使用梯度下降和Bipartide匹配的顺序组合来解决此优化。我们通过使用不同的骨干网络架构对平衡和长尾分类问题进行实验,证明了所提出的方法的好处。特别是,我们的方法在 CIFAR-100 上以 1.22% 的准确率优于其竞争对手,在 ImageNet-200 上以 2.15\% 的准确率使用其竞争对手的一半大小。代码:此 https URL

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值