CV最新论文｜4月3日 arXiv更新论文合集

本文链接：https://blog.csdn.net/Mikasa33/article/details/137335517

以下内容由马拉AI整理，今天为大家带来4月3日 arXiv 计算机视觉和模式识别相关论文：

1、Segment Any 3D Object with Language

使用语言分割任何 3D 对象

摘要：在本文中，我们研究了具有自由格式语言指令的开放词汇 3D 实例分割（OV-3DIS）。早期的作品仅依靠带注释的基本类别进行训练，对看不见的新类别的泛化有限。最近的工作通过生成与类别无关的掩码或将广义掩码从 2D 投影到 3D 来缓解对新类别的较差泛化性，但忽略了语义或几何信息，导致性能欠佳。相反，直接从 3D 点云生成可推广但与语义相关的掩码将产生更好的结果。在本文中，我们介绍了使用语言分割任何 3D 对象（SOLE），这是一种语义和几何感知的视觉语言学习框架，通过直接从 3D 点云生成语义相关掩码，具有很强的泛化性。具体来说，我们提出了一个多模态融合网络，将多模态语义整合到主干和解码器中。此外，为了使 3D 分割模型与各种语言指令保持一致并提高掩码质量，我们引入了三种类型的多模态关联作为监督。我们的 SOLE 在 ScanNetv2、ScanNet200 和 Replica 基准测试中的表现远远优于以前的方法，尽管训练中没有类注释，但结果甚至接近完全监督的对应方法。此外，广泛的定性结果证明了我们的SOLE在语言教学中的多功能性。

2、Alpha Invariance: On Inverse Scaling Between Distance and Volume Density in Neural Radiance Fields

Alpha 不变性：关于神经辐射场中距离和体积密度之间的反向缩放

摘要：3D 场景维度中的尺度模糊性导致神经辐射场中体积密度的量级模糊性，即当场景大小减半时，密度增加一倍，反之亦然。我们称此属性为阿尔法不变性。为了更好地保持 NeRF 的 alpha 不变性，我们建议 1）参数化对数空间中的距离和体积密度，以及 2）使用与离散化无关的初始化策略来保证高射线透射率。我们重新审视了一些流行的辐射场模型，发现这些系统使用各种启发式方法来处理场景缩放引起的问题。我们测试它们的行为，并展示我们的配方更加强大。

3、Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration

动态预训练：迈向高效、可扩展的一体化图像恢复

摘要：一体化图像修复使用统一的模型处理不同类型的退化，而不是为每个退化使用特定于任务的非通用模型。使用同一模型处理多个退化问题的需求可能导致具有固定配置的高复杂性设计，这些设计缺乏对更高效替代方案的适应性。我们提出了 DyNet，这是一个动态网络系列，以编码器-解码器风格设计，用于多合一图像恢复任务。我们的 DyNet 可以在其笨重和轻量级变体之间无缝切换，从而通过一轮训练为高效的模型部署提供灵活性。这种无缝切换是通过我们的权重共享机制实现的，它构成了我们架构的核心，并促进了初始化模块权重的重用。此外，为了建立稳健的权重初始化，我们引入了一种动态预训练策略，该策略同时训练所提出的 DyNet 的变体，从而将 GPU 小时数减少 50%。为了解决预训练中所需的大规模数据集的不可用问题，我们策划了一个名为 Million-IRD 的高质量、高分辨率图像数据集，其中包含 2M 个图像样本。我们验证了我们的 DyNet 在一体化环境中的图像去噪、去雨和去雾，与基线模型相比，GFlops 降低了 31.34%，参数减少了 56.75%，取得了最先进的结果。源代码和经过训练的模型可在此 https URL 中找到。

4、GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image

GeneAvatar：从单个图像进行通用表达感知体积头像编辑

摘要：最近，我们目睹了各种体积表示在可动画头部化身建模中的爆炸式增长。然而，由于框架的多样性，没有实用的方法来支持高级应用程序，如跨不同表示的 3D 头部头像编辑。在本文中，我们提出了一种通用的头像编辑方法，可以普遍应用于各种3DMM驱动体积头像。为了实现这一目标，我们设计了一种新颖的表达感知修饰生成模型，该模型能够将 2D 编辑从单个图像提升到一致的 3D 修饰场。为了保证生成修饰过程的有效性，我们开发了多种技术，包括从大规模头部化身模型和二维面部纹理编辑工具中汲取知识的表情依赖修饰蒸馏方案，增强模型收敛性的隐式潜在空间引导，以及用于细粒度纹理反转的基于分割的损失重权策略。大量的实验表明，我们的方法在多种表达和观点上都能提供高质量和一致的结果。项目页面：此 https URL

5、Diffusion: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models 2

扩散：通过正交扩散模型的分数组合生成动态 3D 内容2

摘要：3D 生成的最新进展主要得益于 3D 感知图像扩散模型的改进，这些模型基于互联网规模的图像数据进行预训练，并在大量 3D 数据上进行微调，从而能够生成高度一致的多视图图像。然而，由于同步多视图视频数据的稀缺性，将这种范式直接应用于4D生成是不切实际的。尽管如此，可用的视频和 3D 数据足以训练视频和多视图扩散模型，这些模型可以分别提供令人满意的动态和几何先验。在本文中，我们介绍了 Diffusion^2，这是一种用于动态 3D 内容创建的新颖框架，它利用这些模型中有关几何一致性和时间平滑度的知识直接对密集的多视图和多帧图像进行采样，可用于优化连续 4D 表示。具体而言，我们设计了一种简单而有效的去噪策略，通过视频的评分组合和基于生成图像的概率结构的多视图扩散模型。由于图像生成的高并行性和现代 4D 重建管道的效率，我们的框架可以在几分钟内生成 4D 内容。此外，我们的方法避免了对4D数据的依赖，从而有可能从基础视频和多视图扩散模型的可扩展性中受益。大量的实验证明了我们提出的框架的有效性及其灵活适应各种类型提示的能力。2

6、Iterated Learning Improves Compositionality in Large Vision-Language Models

迭代学习提高了大型视觉语言模型的组合性

摘要：人类视觉和自然语言的一个共同基本特征是它们的组合性质。然而，尽管大型视觉和语言预训练贡献了性能提升，但最近的调查发现，大多数（如果不是全部）我们最先进的视觉语言模型在组合性方面都很挣扎。他们无法区分“白衣少女面对黑衣男子”和“黑衣少女面对白衣男子”的图像。此外，先前的研究表明，组合性不会随着规模的增加而产生：更大的模型大小或训练数据无济于事。本文开发了一种新的迭代训练算法来激励组合性。我们借鉴了数十年的认知科学研究，将文化传播（需要教授新一代）确定为激励人类发展组合语言的必要归纳先验。具体来说，我们将视觉语言对比学习重新定义为视觉代理和语言代理之间的刘易斯信号博弈，并通过在训练期间迭代重置代理的权重之一来操作文化传播。在每次迭代之后，这种训练范式都会诱导出变得“更容易学习”的表示，这是组合语言的一个属性：例如，我们在 CC3M 和 CC12M 上训练的模型将标准 CLIP 提高了 4.7%，在 SugarCrepe 基准测试中提高了 4.0%。

7、ResNet with Integrated Convolutional Block Attention Module for Ship Classification Using Transfer Learning on Optical Satellite Imagery

ResNet集成了卷积块注意力模块，用于在光学卫星图像上使用迁移学习进行船舶分类

摘要：本研究提出了一种基于高分辨率光学遥感卫星图像的船舶有效分类迁移学习框架。该框架基于深度卷积神经网络模型 ResNet50，并结合了卷积块注意力模块（CBAM）以提高性能。CBAM使模型能够关注图像中的显著特征，从而更好地区分船舶和背景之间的细微差异。此外，本研究采用了一种迁移学习方法，通过针对特定任务微调预训练模型，对不同类型的船舶进行精确分类。实验结果表明，所提框架在光学遥感图像船舶分级中的有效性，在5个类别中实现了94%的高分级准确率，优于现有方法。该研究在海上监视和管理、非法捕鱼侦查和海上交通监测方面具有潜在的应用价值。

8、ViTamin: Designing Scalable Vision Models in the Vision-Language Era

ViTamin：在视觉语言时代设计可扩展的视觉模型

摘要：视觉语言模型（VLM）的最新突破为视觉社区翻开了新的一页。与 ImageNet 预训练模型相比，VLM 提供了更强大、更通用的特征嵌入，这要归功于对大规模 Internet 图像-文本对的训练。然而，尽管 VLM 取得了惊人的成就，但普通视觉转换器（ViT）仍然是图像编码器的默认选择。尽管纯转换器证明了它在文本编码领域的有效性，但图像编码是否也是如此仍然值得怀疑，特别是考虑到在 ImageNet 基准测试中提出了各种类型的网络，不幸的是，这些网络很少在 VLM 中进行研究。由于数据/模型规模较小，ImageNet 上模型设计的原始结论可能受到限制和偏差。本文旨在构建对比语言-图像预训练（CLIP）框架下视觉-语言时代视觉模型的评估协议。我们提供了一种全面的方法来对不同的视觉模型进行基准测试，涵盖它们在模型和训练数据大小方面的零样本性能和可扩展性。为此，我们推出了 ViTamin，这是一种为 VLM 量身定制的新视觉模型。当使用相同的公开 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时，ViTamin-L 的 ImageNet 零样本准确率显着优于 ViT-L 2.0%。ViTamin-L 在 60 个不同的基准测试中呈现出令人鼓舞的结果，包括分类、检索、开放词汇检测和细分以及大型多模态模型。当进一步扩大模型尺寸时，我们的 ViTamin-XL 仅具有 436M 参数，可达到 82.9% 的 ImageNet 零射准确率，超过了参数增加 10 倍（4.4B）的 EVA-E 的 82.0%。

9、3D Congealing: 3D-Aware Image Alignment in the Wild

3D 凝结：野外 3D 感知图像对齐

摘要:我们提出了 3D 凝结，这是一种用于捕获语义相似对象的 2D 图像的 3D 感知对齐的新问题。给定一组未标记的互联网图像，我们的目标是将共享语义部分与输入相关联，并将来自 2D 图像的知识聚合到共享的 3D 规范空间。我们引入了一个通用框架，该框架在不假设形状模板、姿势或任何相机参数的情况下处理任务。其核心是封装几何和语义信息的规范 3D 表示。该框架针对规范表示以及每个输入图像的姿态进行了优化，并针对每个图像的坐标映射进行了优化，该映射将 2D 像素坐标扭曲到 3D 规范帧，以考虑形状匹配。优化过程融合了来自预训练图像生成模型的先验知识和来自输入图像的语义信息。前者为这种约束下任务提供了强有力的知识指导，而后者则提供了必要的信息，以减轻预训练模型的训练数据偏差。我们的框架可用于各种任务，如对应匹配、姿态估计和图像编辑，在具有挑战性的照明条件下的真实世界图像数据集和野外在线图像收集上取得出色的结果。

10、Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners

预先训练的视觉和语言转换器是少量的增量学习器

摘要：Few-Shot Class Incremental Learning （FSCIL）是一项任务，它要求模型以增量方式学习新类，而不会忘记每个类只给出几个样本。FSCIL遇到了两个重大挑战：灾难性遗忘和过度拟合，这些挑战促使先前的研究主要依赖于浅层模型，如ResNet-18。尽管它们有限的容量可以减轻遗忘和过度拟合问题，但它会导致在少量增量会话期间知识转移不足。在本文中，我们认为在大型数据集上预先训练的视觉和语言转换器等大型模型可以成为优秀的小样本增量学习器。为此，我们提出了一种名为PriViLege的新型FSCIL框架，该框架具有提示功能和知识蒸馏功能的预训练视觉和语言转换器。我们的框架通过新的预训练知识调优（PKT）和两个损失（基于熵的发散损失和语义知识蒸馏损失）有效地解决了大型模型中灾难性遗忘和过度拟合的挑战。实验结果表明，所提PriViLege在CUB200中显著优于现有先进方法，在CUB200中为+9.38%，在CIFAR-100中为+20.58%，在miniImageNet中为+13.36%。我们的实现代码可在此 https URL 中找到。

11、Neural Ordinary Differential Equation based Sequential Image Registration for Dynamic Characterization

基于神经常微分方程的动态表征顺序图像配准

摘要：可变形图像配准（DIR）在医学图像分析中至关重要，可以探索生物动力学，例如器官运动和成像中的纵向变化。利用神经常微分方程（ODE）进行配准，该扩展工作讨论了该框架如何帮助表征顺序生物过程。利用神经常微分方程使用神经网络对状态导数进行建模的能力，我们基于神经常微分方程优化（NODEO）的框架将体素视为动态系统中的粒子，通过积分神经微分方程来定义变形场。这种方法直接从数据中学习动态，绕过了对物理先验的需求，使其特别适用于此类先验不可用或不适用的医疗场景。因此，该框架可以识别潜在的动力学，并使用序列数据来规范转换轨迹。我们在两个临床数据集上评估了我们的框架：一个用于心脏运动跟踪，另一个用于纵向脑部 MRI 分析。我们的框架展示了其在 2D 和 3D 成像场景中的功效，提供了灵活性和模型不可知性，能够管理图像序列并促进标签在这些序列中的传播。本研究全面了解了基于神经常微分方程的框架如何独特地有利于图像配准挑战。

12、CameraCtrl: Enabling Camera Control for Text-to-Video Generation

CameraCtrl：启用用于文本到视频生成的相机控制

摘要：可控性在视频生成中起着至关重要的作用，因为它允许用户创建所需的内容。然而，现有的模型在很大程度上忽略了对摄像机姿势的精确控制，而摄影机姿势作为一种电影语言来表达更深层次的叙事细微差别。为了缓解这个问题，我们引入了 CameraCtrl，为文本转视频（T2V）模型提供准确的相机姿势控制。在精确参数化相机轨迹后，即插即用相机模块在 T2V 模型上进行训练，而其他模块保持不变。此外，还对各种数据集的影响进行了综合研究，表明具有不同相机分布和相似外观的视频确实增强了可控性和泛化性。实验结果表明，CameraCtrl在实现精确和域自适应的相机控制方面是有效的，标志着在追求从文本和相机姿势输入进行动态和定制视频叙事方面向前迈进了一步。我们的项目网站位于：此 https URL。

13、BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition

BRAVEn：改进视觉和听觉语音识别的自监督预训练

摘要：自我监督最近显示出从未标记的数据中学习视觉和听觉语音表征的巨大前景。在这项工作中，我们提出了 BRAVEn，这是最近 RAVEn 方法的扩展，该方法完全从原始视听数据中学习语音表示。我们对 RAVEn 的修改使 BRAVEn 能够在各种环境中的自监督方法中取得最先进的结果。此外，我们观察到有利的缩放行为，通过增加远超其他自我监督作品的未标记数据量。特别是，我们在 LRS3 测试集上实现了 20.0% / 1.7% 的 VSR/ASR 字误率，只有 30 小时的标记数据，没有外部 ASR 模型。我们的研究结果表明，现成的未标记的视听数据可以在很大程度上取代昂贵的转录数据。

14、Adaptive Feature Fusion Neural Network for Glaucoma Segmentation on Unseen Fundus Images

用于青光眼分割的自适应特征融合神经网络

摘要：在看不见的领域上进行眼底图像分割具有挑战性，特别是对于在小型医学数据集上训练的过度参数化深度模型。为了应对这一挑战，我们提出了一种名为自适应特征融合神经网络（AFNN）的方法，用于在看不见的领域上进行青光眼分割，该方法主要由三个模块组成：领域适配器、特征融合网络和自监督多任务学习。具体来说，域适配器可帮助预训练模型从其他图像域快速适应医学眼底图像域。引入编码器和解码器的特征融合网络和自监督多任务学习，提高域泛化能力。此外，我们还设计了加权骰子损失，以提高模型在复杂光杯分割任务中的性能。我们提出的方法在四个公共青光眼数据集上取得了优于现有眼底分割方法的竞争性能。

15、WcDT: World-centric Diffusion Transformer for Traffic Scene Generation

WcDT：用于交通场景生成的以世界为中心的扩散变压器

摘要：在本文中，我们介绍了一种利用扩散概率模型（又称扩散模型）和变压器的互补优势来生成自动驾驶轨迹的新方法。我们提出的框架称为“以世界为中心的扩散变压器”（WcDT），优化了从特征提取到模型推理的整个轨迹生成过程。为了增强场景多样性和随机性，首先使用去噪扩散概率模型（DDPM）对历史轨迹数据进行预处理并编码到潜在空间中，并利用Diffusion with Transformer（DiT）模块进行增强。然后，将潜在特征、历史轨迹、高清地图特征和历史交通信号信息与各种基于变压器的编码器融合在一起。然后，编码的交通场景由轨迹解码器解码，以生成多模态未来轨迹。综合实验结果表明，所提方法在生成真实和多样化的轨迹方面表现出优异的性能，显示出其集成到自动驾驶仿真系统中的潜力。

16、EGTR: Extracting Graph from Transformer for Scene Graph Generation

EGTR：从 Transformer 中提取图形以生成场景图形

摘要：

场景图生成（SGG）是一项具有挑战性的任务，需要检测对象并预测对象之间的关系。DETR开发后，基于单级目标探测器的单级SGG模型已被积极研究。然而，使用复杂建模来预测对象之间的关系，而忽略了在目标检测器的多头自注意力中学习到的对象查询之间的内在关系。我们提出了一个轻量级的单阶段SGG模型，该模型从DETR解码器的多头自注意力层中学习到的各种关系中提取关系图。通过充分利用自注意力副产物，可以使用浅层关系提取头有效地提取关系图。考虑到关系提取任务对目标检测任务的依赖性，提出了一种根据检测对象质量自适应调整关系标签的关系平滑技术。通过关系平滑，根据训练开始时以目标检测任务为重点的连续课程对模型进行训练，并随着目标检测性能的逐步提高进行多任务学习。此外，我们提出了一个连通性预测任务，该任务预测对象对之间是否存在关系，作为关系提取的辅助任务。我们证明了我们的方法对视觉基因组和开放图像 V6 数据集的有效性和效率。我们的代码在此 https URL 上公开提供。

17、Red-Teaming Segment Anything Model

Red-Teaming Segment Anything 模型

摘要：基础模型已成为关键工具，通过对大量数据集进行预训练并随后针对特定应用程序进行微调来解决许多复杂任务。Segment Anything 模型是计算机视觉分割任务的最早也是最著名的基础模型之一。这项工作提出了一个多方面的红队分析，测试了 Segment Anything 模型针对具有挑战性的任务：（1）我们分析了风格转移对分割掩模的影响，证明将恶劣的天气条件和雨滴应用于城市道路的仪表板图像会显着扭曲生成的掩码。（2）我们重点评估该模型是否可用于侵犯隐私，例如识别名人的面孔，并表明该模型在这项任务中拥有一些不需要的知识。（3）最后，我们检查了模型对文本提示下分割掩码的对抗性攻击的鲁棒性。我们不仅展示了流行的白盒攻击的有效性和对黑盒攻击的抵抗力，还引入了一种新颖的方法 - 集中迭代梯度攻击（FIGA），它结合了白盒方法来构建有效的攻击，从而减少了修改像素的数量。我们所有的测试方法和分析都表明，需要在图像分割的基础模型中加强安全措施。

18、Multi-Level Label Correction by Distilling Proximate Patterns for Semi-supervised Semantic Segmentation

通过提炼近似模式进行多级标签校正，实现半监督语义分割

摘要：

半监督语义分割通过利用未标记数据来减轻对大规模标记数据的依赖。最近的半监督语义分割方法主要采用伪标记方法来利用未标记的数据。然而，不可靠的伪标签会破坏半监督过程。在本文中，我们提出了一种称为多级标签校正（MLLC）的算法，该算法旨在利用图神经网络捕获语义级图（SLG）和类级图（CLG）中的结构关系，以纠正错误的伪标签。具体而言，SLG 表示像素特征对之间的语义亲和力，CLG 描述像素标签对之间的分类一致性。在图中近似模式信息的支持下，MLLC 可以纠正错误预测的伪标签，并有助于区分特征表示。我们设计了一个端到端网络来训练和执行这种有效的标签校正机制。实验表明，MLLC可以显著改善监督基线，并在城市景观和PASCAL VOC 2012数据集的不同场景中优于最先进的方法。具体而言，在不同的分区协议下，MLLC 使用 DeepLabV2 和 DeepLabV3+ 分别将监督基线提高了至少 5% 和 2%。

19、Causality-based Transfer of Driving Scenarios to Unseen Intersections

基于因果关系的驾驶场景到看不见的交叉路口的转移

摘要：与实际测试相比，基于场景的自动驾驶功能测试已成为一种有前途的减少时间和成本的方法。在基于场景的测试中，自动化功能在一组预定义的场景中进行评估。这些方案使用参数提供有关车辆行为、环境条件或道路特征的信息。为了创建真实的场景，必须利用真实世界的数据来拟合参数和参数依赖关系。但是，由于在现实中发现的交叉点和运动星座种类繁多，因此某些场景的数据可能不可用。本文提出了一种系统分析情景参数间关系的方法。贝叶斯网络用于分析因果关系，以减少所需数据量并传输因果模式，从而创建看不见的场景。因此，研究了基础设施对运动模式的影响，以在未观察到的交叉路口上生成真实场景。为了进行评估，从 inD 数据集中提取场景和基础参数。运动模式被估计、传输和检查来自那些最初看不见的交叉路口的记录数据。

20、SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose Estimation

SelfPose3d：自我监督的多人多视图 3D 姿态估计

摘要：我们提出了一种新的自我监督方法SelfPose3d，用于从多个相机视图估计多个人的3D姿势。与目前最先进的全监督方法不同，我们的方法不需要任何 2D 或 3D 地面实况姿势，仅使用来自校准相机设置的多视图输入图像和从现成的 2D 人体姿势估计器生成的 2D 伪姿势。我们提出了两个自我监督的学习目标：3D空间中的自我监督人员定位和自我监督的3D姿态估计。我们通过在合成生成的 3D 点上训练模型（作为 3D 人员根位置）以及所有视图中的投影根热图来实现自我监督的 3D 人员定位。然后，我们用瓶颈表示对所有局部人物的 3d 姿势进行建模，将它们映射到获得 2d 关节的所有视图上，并使用 2D 高斯热图以端到端可微方式渲染它们。之后，我们使用伪 2d 姿势中的相应 2d 关节和热图进行学习。为了缓解伪标签的内在不准确性，我们提出了一种自适应监督注意机制来指导自我监督。我们对三个公共基准数据集（包括 Panoptic、Shelf 和 Campus）的实验和分析表明，我们的方法与全监督方法相当。代码位于 \url{此 https URL}