【AI视野·今日CV 计算机视觉论文速览第254期】Tue, 26 Sep 2023_iebins: iterative elastic bins for monocular depth-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133349428

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 26 Sep 2023 (showing first 100 of 170 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Chop & Learn: Recognizing and Generating Object-State Compositions
Authors Nirat Saini, Hanyu Wang, Archana Swaminathan, Vinoj Jayasundara, Bo He, Kamal Gupta, Abhinav Shrivastava
识别和生成对象状态组合一直是一项具有挑战性的任务，特别是在推广到看不见的组合时。在本文中，我们研究了以不同样式切割对象的任务以及由此产生的对象状态变化。我们提出了一个新的基准套件 Chop Learn，以适应学习对象和使用多个视角的不同切割风格的需求。我们还提出了组合图像生成的新任务，它可以通过生成新颖的对象状态图像将学习的剪切样式转移到不同的对象。此外，我们还使用这些视频进行组合动作识别，并展示该数据集在多个视频任务中的有价值的用途。

3D Indoor Instance Segmentation in an Open-World
Authors Mohamed El Amine Boudjoghra, Salwa K. Al Khatib, Jean Lahoud, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Fahad Khan
现有的 3D 实例分割方法通常假设所有要分割的语义类在训练期间都可用，并且在推理时仅对可见类别进行分割。我们认为这种封闭世界的假设是有限制性的，并首次在开放世界环境中探索 3D 室内实例分割，其中允许模型区分一组已知类别以及将未知对象识别为未知对象，然后再将其识别为未知对象。当相应的类别标签可用时，增量学习未知的语义类别。为此，我们引入了一种开放世界 3D 室内实例分割方法，其中采用自动标记方案在训练期间生成伪标签，并诱导分离以分离已知和未知类别标签。我们通过根据客观分数分布调整未知类概率，进一步提高推理时的伪标签质量。我们还引入了精心策划的开放世界分割，利用基于固有对象分布的现实场景、基于区域的室内场景探索和开放世界类的随机性方面。

UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human Generation
Authors Jianglin Fu, Shikai Li, Yuming Jiang, Kwan Yee Lin, Wayne Wu, Ziwei Liu
人类这一代已经取得了重大进步。尽管如此，现有的方法仍然难以合成特定区域，例如面部和手部。我们认为主要原因在于训练数据。整体人类数据集不可避免地存在局部信息不足和分辨率低的问题。因此，我们建议使用具有各种分辨率图像的多源数据集来共同学习高分辨率人类生成模型。然而，多源数据本质上包含不同的部分，这些部分在空间上无法对齐成连贯的人类，并且 b 具有不同的尺度。为了应对这些挑战，我们提出了一个端到端框架 UnitedHuman，它使连续 GAN 能够有效利用多源数据来生成高分辨率人类。具体来说，1我们设计了一个多源空间变换器，它通过人体参数模型将多源图像在空间上对齐到全身空间。 2 接下来，提出了具有全局结构指导和 CutMix 一致性的连续 GAN。然后对来自不同数据集的补丁进行采样和转换，以监督该尺度不变生成模型的训练。

DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention
Authors Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He
大多数现有的多模态模型由于无法熟练地管理多图像、多轮对话中的交错图像和文本输入而受到阻碍，在培训和数据可访问性的资源分配方面面临着巨大的限制，影响了它们在不同交互领域的适应性和可扩展性。为了解决这个问题，我们提出了 DeepSpeed VisualChat 框架，旨在通过整合多模式功能来优化大型语言模型法学硕士，重点是提高大型视觉和语言模型在处理交错输入方面的熟练程度。我们的框架值得注意的是 1 对多轮和多图像对话的开源支持，2 引入了创新的多模式因果注意机制，3 在现有数据集上利用数据混合技术来确保多轮、多图像对话中的无缝交互。

Multiple Different Explanations for Image Classifiers
Authors Hana Chockler, David A. Kelly, Daniel Kroening
现有的图像分类器解释工具通常只对图像提供一种解释。然而，对于许多图像，人类和图像分类器都接受图像标签的不止一种解释。因此，将解释的数量限制为一个会严重限制对分类器行为的洞察。在本文中，我们描述了一种算法和工具 REX，用于计算给定图像的黑盒图像分类器输出的多种解释。我们的算法使用基于因果理论的原则性方法。

Overview of Class Activation Maps for Visualization Explainability
Authors Anh Pham Thi Minh
深度学习方法论的最新研究催生了计算机视觉 CV 中的各种复杂建模技术，这些技术达到甚至超越了人类的表现。尽管这些黑盒深度学习模型取得了令人震惊的结果，但它们的可解释性和透明度有限，这对于将学习机器带入下一步以将其纳入涉及人类监督的敏感决策支持系统至关重要。因此，计算机视觉 XCV 可解释技术的开发最近引起了越来越多的关注。在 XCV 领域，类激活图 CAM 已被广泛认可并用于增强深度学习模型决策过程的可解释性和洞察力。这项工作全面概述了类激活映射方法随时间的演变。它还探讨了用于评估 CAM 的指标，并引入了辅助技术来提高这些方法的显着性。

Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation
Authors Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen
为深度视觉模型准备训练数据是一项劳动密集型任务。为了解决这个问题，生成模型已经成为生成合成数据的有效解决方案。虽然当前的生成模型生成图像级类别标签，但我们提出了一种使用文本到图像生成模型稳定扩散 SD 生成像素级语义分割标签的新方法。通过利用SD的文本提示、交叉注意和自注意，我们引入了三种新技术：textit类提示附加、textit类提示交叉注意和textit自注意求幂。这些技术使我们能够生成与合成图像相对应的分割图。这些地图充当训练语义分割器的伪标签，消除了劳动密集型像素明智注释的需要。为了解决伪标签中的缺陷，我们将不确定性区域纳入分割中，使我们能够忽略这些区域的损失。我们对两个数据集 PASCAL VOC 和 MSCOCO 进行了评估，我们的方法明显优于并发工作。

NAS-NeRF: Generative Neural Architecture Search for Neural Radiance Fields
Authors Saeejith Nair, Yuhao Chen, Mohammad Javad Shafiee, Alexander Wong
神经辐射场 NeRF 可实现高质量的新颖视图合成，但其极高的计算复杂性限制了可部署性，尤其是在资源有限的平台上。为了实现 NeRF 的实际使用，质量调整对于降低计算复杂性至关重要，类似于视频游戏中可调整的图形设置。然而，尽管现有解决方案力求效率，但无论场景复杂程度如何，它们都使用一种适合所有架构的架构，尽管相同的架构对于简单场景可能不必要地大，但对于复杂场景却不够。因此，随着 NeRF 越来越广泛地用于 3D 可视化，需要动态优化 NeRF 的神经网络组件，以实现计算复杂性和合成质量的特定目标之间的平衡。为了解决这一差距，我们引入了 NAS NeRF 一种生成式神经架构搜索策略，该策略经过专门定制，通过优化复杂性和性能之间的权衡，在每个场景的基础上生成 NeRF 架构，同时遵守计算预算和最低合成质量的限制。我们在 Blender 合成数据集上的实验表明，与基线 NeRF 相比，所提出的 NAS NeRF 可以生成小 5.74 倍的架构，FLOP 减少 4.19 倍，GPU 上的速度快 1.93 倍，而且 SSIM 不会下降。此外，我们还表明，NAS NeRF 还可以实现比基准 NeRF 小 23 倍、FLOP 少 22 倍、快 4.7 倍的架构，而平均 SSIM 下降仅 5.3 倍。

Tiled Multiplane Images for Practical 3D Photography
Authors Numair Khan, Douglas Lanman, Lei Xiao
从单个图像合成新颖视图的任务在虚拟现实和移动计算中具有有用的应用，并且近年来已经提出了许多解决该问题的方法。多平面图像 MPI 将场景估计为 RGBA 层的堆栈，并且可以比使用纹理网格或分层深度图像的方法更好地模拟复杂的外观效果、抗锯齿深度误差并合成软边缘。与神经辐射场不同，MPI 可以在图形硬件上高效渲染。然而，MPI 具有高度冗余性，需要大量深度层才能获得合理的结果。基于局部图像区域的深度复杂度低于整个图像的深度复杂度的观察，我们将 MPI 分成许多小的平铺区域，每个区域只有几个深度平面。我们将此表示称为平铺多平面图像 TMPI 。我们提出了一种生成具有自适应深度平面的 TMPI 的方法，用于野外单视图 3D 摄影。

CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free
Authors Monika Wysocza ska, Micha l Ramamonjisoa, Tomasz Trzci ski, Oriane Sim oni
CLIP的出现，为开放世界图像感知开辟了道路。该模型的零样本分类能力令人印象深刻，但很难用于图像分割等密集任务。几种方法提出了不同的修改和学习方案来产生密集的输出。相反，我们在这项工作中提出了一种开放词汇语义分割方法，称为 CLIP DIY，它不需要任何额外的训练或注释，而是利用现有的无监督对象定位方法。特别是，CLIP DIY 是一种多尺度方法，可以直接利用 CLIP 对不同大小的补丁进行分类的能力，并将决策聚合到单个地图中。我们进一步使用使用无监督对象定位方法获得的前景背景分数来指导分割。

Calibration-based Dual Prototypical Contrastive Learning Approach for Domain Generalization Semantic Segmentation
Authors Muxin Liao, Shishun Tian, Yuhang Zhang, Guoguang Hua, Wenbin Zou, Xia Li
典型的对比学习 PCL 最近已被广泛用于学习类明智的域不变特征。这些方法基于这样的假设：原型（表示为某个域中同一类的中心值）是域不变的。由于不同域的原型也存在差异，因此PCL从源域学习到的类域不变特征需要同时与其他域的原型进行对齐。然而，同一类在不同领域的原型可能不同，而不同类的原型可能相似，这可能会影响类域不变特征的学习。基于这些观察，提出了一种基于校准的双原型对比学习 CDPCL 方法，以减少学习的类特征与不同领域的原型之间的领域差异，以进行领域泛化语义分割。它包含不确定性引导的 PCL UPCL 和硬加权 PCL HPCL 。由于不同类别的原型的域差异可能不同，因此我们提出了一个不确定性概率矩阵来表示所有类别的原型的域差异。 UPCL 估计不确定性概率矩阵，以在 PCL 期间校准原型的权重。此外，考虑到不同类别的原型在某些情况下可能相似，这意味着这些原型是硬对齐的，因此提出HPCL在PCL期间生成硬加权矩阵来校准硬对齐原型的权重。

SINCERE: Supervised Information Noise-Contrastive Estimation REvisited
Authors Patrick Feeney, Michael C. Hughes
信息噪声对比估计InfoNCE损失函数由于其强大的实证结果和理论动机，为许多自监督深度学习方法提供了基础。之前的工作建议使用监督对比 SupCon 损失来扩展 InfoNCE 以从可用的类标签中学习。由于良好的经验表现报告，这种 SupCon 损失已被广泛使用。然而，在这项工作中，我们认为先前工作制定的特定 SupCon 损失的理论依据值得怀疑，因为它可能会鼓励来自同一类别的图像在学习的嵌入空间中相互排斥。随着共享一个类标签的输入数量的增加，这种有问题的行为会变得更糟。我们建议采用 Supervised InfoNCE REvisited SINCERE 损失作为补救措施。 SINCERE 是一种理论上合理的 InfoNCE 监督扩展解决方案，它永远不会导致同一类的图像相互排斥。我们进一步表明，最小化新损失相当于最大化类条件嵌入分布之间 KL 散度的界限。我们在预训练期间的学习轨迹和微调后的最终线性分类器性能方面比较了 SINCERE 和 SupCon 损失。

Unsupervised correspondence with combined geometric learning and imaging for radiotherapy applications
Authors Edward G. A. Henderson, Marcel van Herk, Andrew F. Green, Eliana M. Vasquez Osorio
本研究的目的是开发一种模型，以准确识别不同患者器官分割之间的对应点，以用于放射治疗。通过计划 CT 扫描的头颈器官分割来训练 3D 形状中同步对应和插值估计的模型。然后，我们使用两种方法扩展原始模型以合并图像信息：1 直接从图像块中提取特征，2 将块之间的均方误差作为损失函数的一部分。使用测地误差、倒角距离和保形失真度量以及解剖标志之间的距离来评估对应和插值性能。每个模型都比基线非刚性配准方法产生了明显更好的对应关系。原始模型的表现与直接包含图像特征的模型类似。性能最佳的模型配置将成像信息作为损失函数的一部分，从而产生了在解剖学上更合理的对应关系。我们将使用性能最佳的模型来识别器官上相应的解剖点，以改善空间标准化，这是结果建模的重要一步，或作为解剖学信息注册的初始化。

Identity-preserving Editing of Multiple Facial Attributes by Learning Global Edit Directions and Local Adjustments
Authors Najmeh Mohammadbagheri, Fardin Ayar, Ahmad Nickabadi, Reza Safabakhsh
近年来，使用预先训练的生成对抗网络 GAN 进行语义面部属性编辑引起了研究人员的极大关注和努力。由于 StyleGAN 生成的面部图像质量很高，因此许多工作都集中在 StyleGAN 潜在空间和所提出的面部图像编辑方法上。尽管这些方法在操纵用户预期属性方面取得了令人满意的结果，但它们并没有实现保留身份的目标，这是一个重要的挑战。我们提出了 ID Style，一种能够解决属性操作期间身份丢失问题的新架构。 ID Style 的关键组件包括可学习的全局方向 LGD（为每个属性找到共享的半稀疏方向）和实例感知强度预测器 IAIP 网络（根据输入实例微调全局方向）。此外，我们在训练期间引入了两个损失，以强制 LGD 找到半稀疏语义方向，这与 IAIP 一起保留了输入实例的身份。

Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation
Authors Yuxi Wang, Jian Liang, Jun Xiao, Shuqi Mei, Yuran Yang, Zhaoxiang Zhang
现代领域适应为实现标记源数据和未标记目标数据之间语义分割的跨域传输提供了实用的解决方案。这些解决方案非常受欢迎，但是，它们需要在测试环境发生变化时重新训练模型。由于耗时的训练过程和对数据隐私的担忧，这可能会导致某些应用程序产生难以承受的成本。一次性域适应方法试图通过仅使用一个目标数据将预训练的源模型转移到目标域来克服这些挑战。尽管如此，引用风格传输模块仍然面临计算成本和过拟合问题。为了解决这个问题，我们提出了一种称为信息数据挖掘 IDM 的新颖框架，它可以实现高效的一次性域适应语义分割。具体来说，IDM提供了基于不确定性的选择标准来识别信息最丰富的样本，这有利于快速适应并减少冗余训练。然后，我们使用这些选定的样本执行模型适应方法，其中包括补丁明智的混合和基于原型的信息最大化来更新模型。这种方法有效地增强了适应性并减轻了过度拟合问题。总的来说，我们提供 IDM 有效性和效率的经验证据。我们的方法优于现有方法，并在 GTA5 SYNTHIA 到 Cityscapes 适应任务上分别实现了 56.7 和 55.4 的新的最先进的一次性性能。

Automatic Animation of Hair Blowing in Still Portrait Photos
Authors Wenpeng Xiao, Wentao Liu, Yitong Wang, Bernard Ghanem, Bing Li
我们提出了一种新颖的方法来使静态肖像照片中的人类头发动起来。现有的工作主要研究了水和火等流体元素的动画。然而，由于头发结构和动力学的高度复杂性，真实图像的头发动画仍未得到充分探索，这是一个具有挑战性的问题。考虑到头发结构的复杂性，我们创新性地将发丝提取视为实例分割问题，其中发丝被称为实例。借助先进的实例分割网络，我们的方法可以提取有意义且自然的发丝。此外，我们提出了一个缕缕感知动画模块，可以用令人愉悦的动作来动画缕缕头发，而不会出现明显的伪影。大量的实验表明了我们方法的优越性。我们的方法在定性实验中提供了最令人愉悦和引人注目的观看体验，并且在定量评估中大大优于最先进的静态图像动画方法。

Detecting and Grounding Multi-Modal Media Manipulation and Beyond
Authors Rui Shao, Tianxing Wu, Jianlong Wu, Liqiang Nie, Ziwei Liu
错误信息已成为一个紧迫的问题。视觉和文本形式的虚假媒体在网络上广泛存在。虽然已经提出了各种深度伪造检测和文本假新闻检测方法，但它们仅针对基于二元分类的单一模态伪造而设计，更不用说分析和推理跨不同模态的微妙伪造痕迹了。在本文中，我们重点介绍了多模态假媒体的一个新研究问题，即检测和基础多模态媒体操纵 DGM 4 。 DGM 4 的目标不仅是检测多模态媒体的真实性，还要对被操纵的内容进行基础分析，这需要对多模态媒体操纵进行更深入的推理。为了支持大规模调查，我们构建了第一个 DGM 4 数据集，其中图像文本对通过各种方法进行操作，并对各种操作进行了丰富的注释。此外，我们提出了一种新颖的分层多模态操作推理变换器 HAMMER，以充分捕获不同模态之间的细粒度交互。 HAMMER 在两个单模态编码器之间执行 1 个操作感知对比学习作为浅层操作推理，并通过多模态聚合器执行 2 个模态感知交叉注意作为深度操作推理。基于交互的多模态信息，从浅到深集成了专用的操纵检测和接地头。为了利用更细粒度的对比学习进行跨模态语义对齐，我们进一步将 Manipulation Aware Contrastive Loss 与 Local View 集成，并构建了更高级的模型 HAMMER 。最后，我们为这个新的研究问题建立了广泛的基准并建立了严格的评估指标。

Species196: A One-Million Semi-supervised Dataset for Fine-grained Species Recognition
Authors Wei He, Kai Han, Ying Nie, Chengcheng Wang, Yunhe Wang
基础视觉模型的发展将通用视觉识别提升到了一个很高的水平，但不能很好地解决入侵物种分类等专业领域的细粒度识别。识别和管理入侵物种具有很强的社会和生态价值。目前，大多数入侵物种数据集规模有限，覆盖物种范围狭窄，限制了基于深度学习的入侵生物识别系统的发展。为了填补这一领域的空白，我们引入了 Species196，这是一个包含 196 类入侵物种的大规模半监督数据集。它收集了超过 19K 张具有专家级精确注释的图像 Species196 L 和 120 万张入侵物种 Species196 U 的未标记图像。该数据集提供了四种实验设置来对现有模型和算法进行基准测试，即监督学习、半监督学习、自监督预训练大型多模态模型的零样本推理能力。为了促进未来对这四种学习范式的研究，我们对引入的数据集上的代表性方法进行了实证研究。

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision
Authors Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Chunyi Li, Wenxiu Sun, Qiong Yan, Guangtao Zhai, Weisi Lin
多模态大型语言模型 MLLM 的快速发展促进了计算机视觉从专用模型向通用基础模型的转变。然而，评估 MLLM 的低水平视觉感知和理解能力仍然存在不足。为了解决这一差距，我们提出了 Q Bench，这是一个整体基准，旨在系统地评估 MLLM 在低级视觉感知、低级视觉描述和整体视觉质量评估三个领域的潜在能力。 a 为了评估低级感知能力，我们构建了 LLVisionQA 数据集，该数据集由 2,990 个不同来源的图像组成，每个图像都配备了一个关注其低级属性的人类提问问题。然后我们衡量 MLLM 回答这些问题的正确性。 b 为了检查 MLLM 对低级信息的描述能力，我们提出了 LLDescribe 数据集，该数据集由 499 个图像上的长专家标记的黄金低级文本描述组成，并且 GPT 涉及 MLLM 的输出和黄金描述之间的比较管道。 c 除了这两项任务之外，我们还进一步衡量他们的视觉质量评估能力，以与人类意见得分保持一致。具体来说，我们设计了一种基于 softmax 的策略，使 MLLM 能够预测可量化的质量分数，并在各种现有的图像质量评估 IQA 数据集上对其进行评估。我们对这三种能力的评估证实了 MLLM 拥有基本的低水平视觉技能。然而，这些技能仍然不稳定且相对不精确，表明需要对 MLLM 进行具体增强以实现这些能力。

Data Upcycling Knowledge Distillation for Image Super-Resolution
Authors Yun Zhang, Wei Li, Simiao Li, Jie Hu, Hanting Chen, Hailing Wang, Zhijun Tu, Wenjia Wang, Bingyi Jing, Yunhe Wang
知识蒸馏 KD 是一种具有挑战性但有前途的压缩深度学习模型的技术，其特点是将广泛的学习表示从熟练且计算密集的教师模型传输到紧凑的学生模型。然而，只有少数研究尝试通过 KD 压缩单图像超分辨率 SISR 模型，其对学生模型增强的影响仍然很小。在本文中，我们从有效数据利用的角度提出了一种方法，即数据升级知识蒸馏DUKD，该方法通过教师输入的领域数据升级提供的先验知识，促进学生模型的建立。这个升级过程是通过两次有效的图像缩放操作和可逆数据增强来实现的，将标签一致性正则化引入到 SISR 的 KD 领域，并大大提高了学生模型的泛化能力。 DUKD 由于其多功能性，可以应用于广泛的师生架构。跨不同基准的综合实验表明，我们提出的 DUKD 方法显着优于以前的技术，例如 PSNR 比基线方法增加了 0.5dB，并且 67 个参数减少的 RCAN 模型的性能与 RCAN 教师模型的性能保持一致

LAPP: Layer Adaptive Progressive Pruning for Compressing CNNs from Scratch
Authors Pucheng Zhai, Kailing Guo, Fang Liu, Xiaofen Xing, Xiangmin Xu
结构化剪枝是卷积神经网络CNN常用的压缩方法。剪枝率设置是结构化剪枝中的一个基本问题。大多数现有工作引入了太多额外的可学习参数来在 CNN 的不同层上分配不同的剪枝率，或者无法明确控制压缩率。由于网络太窄会阻碍训练的信息流，因此自动剪枝率设置无法探索特定层的高剪枝率。为了克服这些限制，我们提出了一种名为 Layer Adaptive Progressive Pruning LAPP 的新颖框架，该框架在从头开始的几个时期的初始训练期间逐渐压缩网络。特别是，LAPP 设计了一种有效且高效的剪枝策略，为每一层引入了可学习的阈值，并为网络引入了 FLOPs 约束。在任务损失和 FLOPs 约束的指导下，可学习阈值会动态且逐渐更新，以适应训练期间重要性分数的变化。因此，剪枝策略可以逐步剪枝网络并自动确定每一层合适的剪枝率。更重要的是，为了保持剪枝层的表达能力，在训练开始之前，我们为每个要剪枝的卷积层引入了一个额外的轻量级旁路，这只增加了相对较少的额外负担。我们的方法在各种数据集和骨干架构上表现出了比以前的压缩方法更优越的性能增益。例如，在 CIFAR 10 上，我们的方法将 ResNet 20 压缩到 40.3，而精度没有下降。

IEBins: Iterative Elastic Bins for Monocular Depth Estimation
Authors Shuwei Shao, Zhongcai Pei, Xingming Wu, Zhong Liu, Weihai Chen, Zhengguo Li
单目深度估计 MDE 是几何计算机视觉的基本主题，也是许多下游应用的核心技术。最近，几种方法将 MDE 重新构建为分类回归问题，其中使用概率分布和箱中心的线性组合来预测深度。在本文中，我们为基于 MDE 的分类回归提出了迭代弹性箱 IEBins 的新概念。所提出的 IEBins 旨在通过逐步优化搜索范围来搜索高质量深度，这涉及多个阶段，每个阶段在其前一阶段之上的目标箱中执行更细粒度的深度搜索。为了减轻迭代过程中可能出现的误差累积，我们利用一种新颖的弹性目标箱来代替原始目标箱，其宽度根据深度不确定性进行弹性调整。此外，我们开发了一个由特征提取器和迭代优化器组成的专用框架，该框架具有强大的时间上下文建模功能，受益于基于 GRU 的架构。对 KITTI、NYU Depth v2 和 SUN RGB D 数据集的大量实验表明，所提出的方法超越了现有技术竞争对手。

Masked Image Residual Learning for Scaling Deeper Vision Transformers
Authors Guoxi Huang, Hongtao Fu, Adrian G. Bors
Deeper Vision Transformers ViT 的训练更具挑战性。当使用掩模图像建模 MIM 进行预训练时，我们暴露了 ViT 更深层的退化问题。为了简化更深层次 ViT 的训练，我们引入了一种名为 textbf M 问 textbf I mage textbf R esidual textbf L 赚取 textbf MIRL 的自监督学习框架，它显着缓解了退化问题，使得沿深度扩展 ViT 成为性能升级的一个有希望的方向。我们将 ViT 更深层的预训练目标重新表述为学习恢复掩模图像的残差。我们提供了大量的经验证据，表明可以使用 MIRL 有效优化更深的 ViT，并且可以通过增加深度轻松获得准确性。在与 ViT Base 和 ViT Large 相同水平的计算复杂度下，我们实例化了 4.5 倍和 2 倍更深的 ViT，分别称为 ViT S 54 和 ViT B 48。更深的 ViT S 54 的成本比 ViT Large 低 3 倍，其性能达到了与 ViT Large 相当。 ViT B 48 在 ImageNet 上达到 86.2 top 1 准确率。一方面，使用 MIRL 预训练的更深层次 ViT 在下游任务（例如对象检测和语义分割）上表现出出色的泛化能力。另一方面，MIRL 表现出较高的预训练效率。

SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution
Authors Zhongjie Ba, Jieming Zhong, Jiachen Lei, Peng Cheng, Qinglong Wang, Zhan Qin, Zhibo Wang, Kui Ren
DALL E 2 和 Midjourney 等高级文本到图像模型能够生成高度逼真的图像，这引发了人们对不安全内容潜在扩散的严重担忧。这包括政治人物的成人、暴力或欺骗性图像。尽管声称这些模型中实施了严格的安全机制来限制生成不安全的工作 NSFW 内容，但我们成功地设计并展示了对 Midjourney 的首次即时攻击，从而产生了大量逼真的 NSFW 图像。我们揭示了此类即时攻击的基本原理，并建议战略性地替换可疑提示中的高风险部分，以逃避闭源安全措施。我们的新颖框架 SurrogatePrompt 可以系统地生成攻击提示，利用大型语言模型、图像到文本和图像到图像模块来大规模自动创建攻击提示。评估结果显示，使用我们的攻击提示绕过 Midjourney 专有安全过滤器的成功率为 88，从而导致生成描绘暴力场景中政治人物的伪造图像。

Small Objects Matters in Weakly-supervised Semantic Segmentation
Authors Cheolhyun Mun, Sanghuk Lee, Youngjung Uh, Junsuk Choe, Hyeran Byun
弱监督语义分割 WSSS 仅在给定图像级标签的情况下执行像素级分类进行训练。尽管这项任务很困难，但研究界在过去五年中取得了有希望的成果。尽管如此，当前的 WSSS 文献仍然没有详细了解这些方法在不同大小的对象上的表现。因此，我们提出了一种新颖的评估指标来提供跨不同对象尺寸的全面评估，并收集尺寸平衡的评估集来补充 PASCAL VOC。通过这两个小工具，我们揭示了现有的 WSSS 方法在捕获小物体方面存在困难。此外，我们提出了大小平衡的交叉熵损失以及适当的训练策略。

BoIR: Box-Supervised Instance Representation for Multi-Person Pose Estimation
Authors Uyoung Jeong, Seungryul Baek, Hyung Jin Chang, Kwang In Kim
单阶段多人人体姿态估计 MPPE 方法已经显示出巨大的性能改进，但现有方法无法在拥挤的场景下通过个体实例来分离特征。在本文中，我们提出了一种称为 BoIR 的边界框级实例表示学习，它同时解决了实例检测、实例解缠和实例关键点关联问题。我们的新实例嵌入损失通过边界框注释在图像的整个区域上提供学习信号，从而实现全局一致且解开的实例表示。我们的方法利用自下而上的关键点估计、边界框回归和对比实例嵌入学习的多任务学习，在推理过程中无需额外的计算成本。 BoIR 对于拥挤的场景非常有效，在 COCO val 0.8 AP 、COCO test dev 0.5 AP 、CrowdPose 4.9 AP 和 OCHuman 3.5 AP 上的表现优于现有技术。

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation
Authors Siqi Du, Weixi Wang, Renzhong Guo, Shengjun Tang
在机器人智能领域，实现高效、精准的RGB D语义分割是关键的基石。最先进的多模态语义分割方法主要植根于对称骨架网络，发现协调计算效率和精度具有挑战性。在这项工作中，我们提出了 AsymFormer，一种用于实时 RGB D 语义分割的新型网络，其目标是通过优化计算资源的分布来最小化多余参数，并引入不对称主干以允许多模态特征的有效融合。此外，我们探索了通过重新定义特征选择和提取多模态自相似性特征来提高网络准确性的技术，而无需大幅增加参数数量，从而确保机器人平台上的实时执行。此外，本地注意力引导特征选择 LAFS 模块用于通过利用不同模态的依赖关系来选择性地融合来自不同模态的特征。随后，引入跨模态注意力引导特征相关嵌入CMA模块来进一步提取跨模态表示。该方法在 NYUv2 和 SUNRGBD 数据集上进行评估，AsymFormer 在 NYUv2 上显示出具有竞争力的结果，在 NYUv2 上达到 52.0 mIoU，在 SUNRGBD 上达到 49.1 mIoU。值得注意的是，AsymFormer 实现了 65 FPS 的推理速度，在实现混合精度量化后，它在 RTX3090 上实现了 79 FPS 的令人印象深刻的推理速度。

Weakly Supervised Semantic Segmentation by Knowledge Graph Inference
Authors Jia Zhang, Bo Peng, Xi Wu
目前，基于卷积神经网络 CNN 的弱监督语义分割 WSSS 的现有工作主要集中在增强多标签分类网络阶段，而对同样重要的下游分割网络的关注有限。此外，基于 CNN 的局部卷积缺乏对广泛的类别间依赖关系进行建模的能力。因此，本文引入了一种基于图推理的方法来增强 WSSS。目的是通过同时增强多标签分类和分割网络阶段来整体改进 WSSS。在多标签分类网络部分，外部知识被集成，与 GCN 相结合，以全局推理类间依赖关系。这鼓励网络发现图像非显着区域的特征，从而完善生成的伪标签的完整性。在分割网络段中，采用所提出的图形推理映射 GRM 模块来利用从文本数据库获得的知识，促进图像区域内类表示的上下文推理。该 GRM 模块增强了分割网络局部卷积的高级语义中的特征表示，同时动态学习各个样本的语义一致性。仅使用图像级监督，我们就在 PASCAL VOC 2012 和 MS COCO 数据集上的 WSSS 中实现了最先进的性能。

Single Image Test-Time Adaptation for Segmentation
Authors Klara Janouskova, Tamir Shor, Chaim Baskin, Jiri Matas
测试时间适应 TTA 方法提高了深度神经网络对图像分类或分割等各种任务的域转移的鲁棒性。这项工作探索将分割模型适应单个未标记的图像，在测试时没有其他可用数据。特别是，这项工作的重点是通过在测试时优化自监督损失来进行适应。在不同条件下评估基于不同原理的多个基线，并引入一种新颖的对抗训练来适应掩模细化。

Variational Inference for Scalable 3D Object-centric Learning
Authors Tianyu Wang, Kee Siong Ng, Miaomiao Liu
我们解决 3D 场景上可扩展的无监督以对象为中心的表示学习的任务。现有的以对象为中心的表示学习方法在推广到更大的场景时表现出局限性，因为它们的学习过程依赖于固定的全局坐标系。相反，我们建议学习局部对象坐标系中的视图不变 3D 对象表示。为此，我们分别估计对象姿势和外观表示，并在保持对象身份的同时显式地跨视图映射对象表示。我们采用摊销变分推理管道，可以处理顺序输入并可扩展地在线更新对象潜在分布。为了处理具有不同数量对象的大规模场景，我们进一步引入了认知地图，它允许在每个场景全局地图上注册和查询对象，以实现可扩展的表示学习。我们探索以对象为中心的神经辐射场 NeRF 作为我们的 3D 场景表示，它在我们的无监督对象为中心的学习框架内联合建模。

Diverse Semantic Image Editing with Style Codes
Authors Hakan Sivuk, Aysegul Dundar
语义图像编辑需要按照语义图修复像素。这是一项具有挑战性的任务，因为这种修复既需要与上下文相协调，又需要严格遵守语义图。之前为此任务提出的大多数方法都尝试对擦除图像中的全部信息进行编码。但是，当将对象添加到场景（例如汽车）时，无法仅根据上下文对其样式进行编码。另一方面，可以输出不同代的模型很难输出在生成部分和未擦除部分之间具有无缝边界的图像。此外，以前的方法没有一种机制来对可见和部分可见对象的样式进行不同的编码以获得更好的性能。在这项工作中，我们提出了一个框架，可以使用一种新颖的机制对可见和部分可见的对象进行编码，以实现样式编码和最终生成的一致性。我们与以前的条件图像生成和语义图像编辑算法进行了广泛的比较。我们广泛的实验表明，我们的方法显着优于现有技术。我们的方法不仅取得了更好的定量结果，而且提供了多样化的结果。

Egocentric RGB+Depth Action Recognition in Industry-Like Settings
Authors Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah
从自我中心的角度进行动作识别是机器人技术中的一项重要感知任务，并且能够实现广泛的人类机器人交互。虽然大多数计算机视觉方法优先考虑 RGB 相机，但可以从以自我为中心的角度进一步放大动作的微妙之处的深度模式仍未得到充分探索。我们的工作重点是在类似行业的环境中识别以自我为中心的 RGB 和深度模式的行为。为了研究这个问题，我们考虑最近的 MECCANO 数据集，它提供了广泛的组装动作。我们的框架基于 3D Video SWIN Transformer，可以有效地编码 RGB 和深度模式。为了解决现实世界多模态动作发生中固有的偏度，我们提出了一种使用焦点损失调制因子的指数衰减变体的训练策略。此外，为了利用 RGB 和深度模态中的信息，我们选择后期融合来组合每种模态的预测。我们在 MECCANO 数据集的动作识别任务上彻底评估了我们的方法，它显着优于之前的工作。

In-Domain GAN Inversion for Faithful Reconstruction and Editability
Authors Jiapeng Zhu, Yujun Shen, Yinghao Xu, Deli Zhao, Qifeng Chen, Bolei Zhou
生成对抗网络 GAN 通过将随机采样的潜在代码映射到高保真合成图像，显着改进了图像合成。然而，将训练有素的 GAN 应用于实际图像编辑仍然具有挑战性。常见的解决方案是找到一个能够充分恢复要编辑的输入图像的近似潜在代码，这也称为 GAN 反转。为了反转 GAN 模型，先前的工作通常侧重于在像素级别重建目标图像，但很少研究反转结果是否能够很好地支持语义级别的操作。这项工作通过提出域 GAN 反转来填补这一空白，该反转由域引导编码器和域正则化优化器组成，以对预训练 GAN 模型的本机潜在空间中的反转代码进行正则化。通过这种方式，我们能够充分重用 GAN 学到的知识来进行图像重建，从而无需任何重新训练即可促进广泛的编辑应用。我们进一步对编码器结构、反转起始点以及反转参数空间的影响进行综合分析，并观察重建质量和编辑性能之间的权衡。这种权衡揭示了 GAN 模型如何表示具有在学习的潜在分布中编码的各种语义的图像。

VidChapters-7M: Video Chapters at Scale
Authors Antoine Yang, Arsha Nagrani, Ivan Laptev, Josef Sivic, Cordelia Schmid
将长视频分成章节使用户能够快速导航到他们感兴趣的信息。由于缺乏公开发布的数据集，这一重要主题尚未得到充分研究。为了解决这个问题，我们提出了 VidChapters 7M，这是一个包含 817K 个用户章节视频的数据集，总共包括 700 万个章节。 VidChapters 7M 是通过抓取用户注释的章节，以可扩展的方式从在线视频自动创建的，因此无需任何额外的手动注释。我们根据这些数据介绍以下三个任务。首先，视频章节生成任务包括对视频进行时间分段并为每个片段生成章节标题。为了进一步剖析这个问题，我们还定义了该任务的两个变体：给定真实边界的视频章节生成，这需要在给定带注释的视频片段的情况下生成章节标题；以及视频章节接地，这需要在给定带注释的标题的情况下对章节进行时间本地化。我们针对这三项任务对简单的基线和最先进的视频语言模型进行了基准测试。我们还表明，VidChapters 7M 上的预训练在零镜头和微调设置下都能很好地转移到密集视频字幕任务，很大程度上提高了 YouCook2 和 ViTT 基准的最新水平。最后，我们的实验表明，下游性能随着预训练数据集的大小而很好地扩展。

Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training
Authors Jiangliu Wang, Jianbo Jiao, Yibing Song, Stephen James, Zhan Tong, Chongjian Ge, Pieter Abbeel, Yun hui Liu
这项工作旨在改进无监督视听预训练。受视觉对比学习中数据增强功效的启发，我们提出了一种新颖的速度协同增强方法，可以随机改变音频和视频数据的播放速度。尽管很简单，但速度协同增强方法具有两个引人注目的属性：1.它增加了视听对的多样性，并将负对的大小加倍，从而显着增强了学习到的表示；2.它改变了视听之间的严格相关性。对，但引入了增强对之间的部分关系，这是由我们提出的 SoftInfoNCE 损失建模的，以进一步提高性能。

A Lightweight Recurrent Grouping Attention Network for Video Super-Resolution
Authors Yonggui Zhu, Guofang Li
连续帧时间信息的有效聚合是实现视频超分辨率的核心。许多学者利用滑动窗口和循环等结构来收集帧的时空信息。然而，虽然所构建的振动时效模型的性能在不断提高，但模型的尺寸也在不断增大，加剧了对设备的需求。因此，为了减轻设备的压力，我们提出了一种新颖的轻量级循环分组注意力网络。该模型的参数仅为0.878M，远低于目前研究视频超分辨率的主流模型。我们设计了前向特征提取模块和后向特征提取模块来从两个方向收集连续帧之间的时间信息。此外，提出了一种新的分组机制来有效地收集参考帧及其相邻帧的时空信息。提出注意力补充模块以进一步增强模型的信息收集范围。特征重建模块旨在聚合来自不同方向的信息以重建高分辨率特征。

Recursive Counterfactual Deconfounding for Object Recognition
Authors Jiayin Sun, Hong Wang, Qiulei Dong
图像识别是计算机视觉领域的经典且常见的任务，在过去十年中得到了广泛的应用。文献中的大多数现有方法旨在从标记图像中学习判别特征以进行分类，然而，它们通常忽略渗透到学习特征中的混杂因素，导致判别测试图像的性能较低。为了解决这个问题，我们提出了一种基于反事实分析的递归反事实解混模型（RCD），用于封闭集和开放集场景中的对象识别。所提出的模型由事实图和反事实图组成，其中图像特征、模型预测和混杂因素之间的关系被递归地建立和更新，以学习更多的判别性特征。它以递归方式执行，以便可以逐步学习和消除更微妙的反事实特征，并且可以相应地提高所提出模型的可辨别性和泛化性。此外，还设计了负相关约束，以进一步减轻模型训练阶段反事实特征的负面影响。

Subspace-Aware Feature Reconstruction for Unsupervised Anomaly Localization
Authors Katsuya Hotta, Chao Zhang, Yoshihiro Hagihara, Takuya Akashi
无监督异常定位在工业制造中起着至关重要的作用，它可以识别偏离仅根据名义样本建立的模式的异常区域。最近的主流方法侧重于利用 ImageNet 模型的嵌入来近似目标特征分布。然而，许多异常定位方法的一个常见问题是特征近似缺乏对特定目标的适应性。因此，他们有效识别异常区域的能力在很大程度上依赖于存储库中有限资源提供的数据覆盖范围。在本文中，我们提出了一种用于异常定位的新颖的子空间感知特征重建框架。为了实现自适应特征近似，我们提出的方法涉及通过旨在学习低维子空间的自我表达模型来重建特征表示。重要的是，子空间表示的稀疏性有助于用更少的资源覆盖同一子空间的特征模式，从而减少存储体。

Bitstream-Corrupted Video Recovery: A Novel Benchmark Dataset and Method
Authors Tianyi Liu, Kejun Wu, Yi Wang, Wenyang Liu, Kim Hui Yap, Lap Pui Chau
在过去的十年里，视频修复、补全和错误隐藏等专业技术在视频恢复方面取得了巨大进步。然而，他们通常通过手动设计的错误掩码来模拟丢失的内容，因此无法填补视频通信（例如远程呈现、直播、互联网视频和多媒体取证）中真实的视频丢失。为了解决这个问题，我们引入了比特流损坏视频 BSCV 基准，这是第一个包含超过 28,000 个视频剪辑的基准数据集，可用于现实世界中的比特流损坏视频恢复。 BSCV 是以下内容的集合：1 提出的视频比特流三参数损坏模型；2 包含丰富错误模式、多个损坏级别和灵活数据集分支的大规模数据集；以及 3 视频恢复框架中的即插即用模块，用作一个基准。我们评估了 BSCV 数据集上最先进的视频修复方法，展示了现有方法的局限性以及我们的框架在解决比特流损坏视频恢复问题方面的优势。

Skip-Connected Neural Networks with Layout Graphs for Floor Plan Auto-Generation
Authors Yuntae Jeon, Dai Quoc Tran, Seunghee Park
随着人工智能和计算机视觉技术的出现，对自动化、高效的平面图设计的追求已经获得动力。本文提出了一种使用跳跃连接神经网络与布局图集成的新颖方法。跳跃连接层捕获多尺度平面图信息，并且带有 GNN 的编码器解码器网络有助于基于像素级概率的生成。在 MSD 数据集上进行验证，我们的方法在 ICCV 第一届 CVAAD 研讨会挑战中获得了 56.6 mIoU 分数。

SuPerPM: A Large Deformation-Robust Surgical Perception Framework Based on Deep Point Matching Learned from Physical Constrained Simulation Data
Authors Shan Lin, Albert J. Miao, Ali Alabiad, Fei Liu, Kaiyuan Wang, Jingpei Lu, Florian Richter, Michael C. Yip
使用手术工具操纵组织通常会导致较大的变形，而当前的跟踪和重建算法方法尚未有效解决这一问题。大变形期间跟踪误差的一个主要来源源于观察到的传感器测量值与先前跟踪的场景之间的错误数据关联。为了缓解这个问题，我们提出了一种手术感知框架 SuPerPM，它利用基于学习的非刚性点云匹配进行数据关联，从而适应更大的变形。学习模型通常需要具有地面实况点云对应的训练数据，这在手术环境中收集具有挑战性甚至是不切实际的。因此，为了调整学习模型，我们收集手术机器人操纵的软组织的内窥镜数据，然后在不同时间点的点云之间建立对应关系以作为地面实况。这是通过采用基于位置的动态 PBD 仿真来实现的，以确保对应关系遵守物理约束。

DISeR: Designing Imaging Systems with Reinforcement Learning
Authors Tzofi Klinghoffer, Kushagra Tiwary, Nikhil Behari, Bhavya Agrawalla, Ramesh Raskar
成像系统由用于编码有关世界的视觉信息的相机和用于解释这种编码的感知模型组成。相机包含 1 个照明源、2 个光学元件和 3 个传感器，而感知模型使用 4 种算法。由于搜索空间的大小，直接搜索这四个构建块的所有组合来设计成像系统具有挑战性。此外，相机和感知模型通常是独立设计的，导致任务性能不佳。在本文中，我们将成像系统的这四个构建块制定为上下文无关语法 CFG ，可以与有学识的相机设计师一起自动搜索它，以与特定于任务的感知模型联合优化成像系统。通过将 CFG 转换为状态动作空间，我们向相机设计者展示了如何通过强化学习来实现，以智能地搜索可能的成像系统配置的组合空间。我们在自动驾驶车辆的深度估计和相机装备设计这两项任务上展示了我们的方法，表明我们的方法产生的装备优于行业标准。

Tuning Multi-mode Token-level Prompt Alignment across Modalities
Authors Dongsheng Wang, Miaoge Li, Xinyang Liu, MingSheng Xu, Bo Chen, Hanwang Zhang
及时调整预先训练的视觉语言模型在提高开放世界视觉概念理解方面表现出了巨大的潜力。然而，现有的工作仅主要关注单一模式，每种模态只有一个提示，以及整体层面的图像或句子语义对齐，无法捕捉样本多样性，导致提示发现次优。为了解决这一限制，我们提出了一种多模式令牌级别调整框架，该框架利用最佳传输来学习和调整一组跨模式的提示令牌。具体来说，我们依赖两个基本因素：1 多模式提示发现，保证多样化的语义表示；2 令牌级别对齐，这有助于探索细粒度的相似性。因此，相似度可以计算为模态特定集合之间的分层运输问题。对流行图像识别基准的大量实验表明，我们的方法具有出色的泛化能力和少量的拍摄能力。

Dual Feature Augmentation Network for Generalized Zero-shot Learning
Authors Lei Xiang, Yuan Zhou, Haoran Duan, Yang Long
零样本学习 ZSL 旨在通过从已知类中转移知识来推断新类，而无需训练样本。现有的基于嵌入的 ZSL 方法通常采用注意力机制来定位图像上的属性。然而，这些方法往往忽略了嵌入空间中不同属性视觉特征之间的复杂纠缠。此外，这些方法采用直接属性预测方案进行分类，它没有考虑同一类别图像中属性的多样性。为了解决这些问题，我们提出了一种新颖的双特征增强网络 DFAN，它包含两个特征增强模块，一个用于视觉特征，另一个用于语义特征。视觉特征增强模块显式学习属性特征并采用余弦距离将它们分开，从而增强属性表示。在语义特征增强模块中，我们提出了一个偏差学习器来捕获从数据集角度弥合实际属性值和预测属性值之间差距的偏移量。此外，我们引入了两个预测器来协调局部特征和全局特征之间的冲突。三个基准的实验结果表明，与最先进的方法相比，我们的方法具有显着的进步。

DVI-SLAM: A Dual Visual Inertial SLAM Network
Authors Xiongfeng Peng, Zhihua Liu, Weiming Li, Ping Tan, SoonYong Cho, Qiang Wang
最近基于深度学习的视觉同步定位和建图SLAM方法取得了重大进展。然而，如何在视觉SLAM中充分利用视觉信息并与惯性测量单元IMU更好地结合，具有潜在的研究价值。本文提出了一种具有双视觉因素的新型深度 SLAM 网络。其基本思想是通过多因子数据关联模块将光度因子和重投影因子集成到端到端可微结构中。我们表明，所提出的网络可以动态学习和调整两个视觉因素的置信图，并且可以进一步扩展以包括 IMU 因素。大量实验验证了我们提出的方法在多个公共数据集（包括 TartanAir、EuRoC 和 ETH3D SLAM）上显着优于最先进的方法。

Boundary-Aware Proposal Generation Method for Temporal Action Localization
Authors Hao Zhang, Chunyan Feng, Jiahui Yang, Zheng Li, Caili Guo
时间动作定位 TAL 的目标是找到未修剪视频中动作的类别和时间边界。大多数 TAL 方法严重依赖于对动作标签而不是时间边界敏感的动作识别模型。更重要的是，很少有工作考虑到像素上与动作帧相似但语义不同的背景帧，这也导致时间边界不准确。为了解决上述挑战，我们提出了一种具有对比学习的边界感知提案生成 BAPG 方法。具体来说，我们将上述背景帧定义为硬负样本。引入对比学习和硬负挖掘来提高 BAPG 的辨别力。 BAPG独立于现有TAL网络架构，因此可以即插即用地应用于主流TAL模型。

Motion Segmentation from a Moving Monocular Camera
Authors Yuxiang Huang, John Zelek
当存在未知的相机运动、不同类型的物体运动和复杂的场景结构时，从移动的单目相机识别和分割移动物体是很困难的。为了应对这些挑战，我们利用单目运动分割方法的两个流行分支基于点轨迹和基于光流的方法，通过在对象级别协同融合这两种高度互补的运动线索。通过这样做，我们能够同时对不同场景结构中的各种复杂物体运动进行建模，这是现有方法无法实现的。我们首先利用对象识别、分割和跟踪方面的最新基础模型，获得视频中每个常见对象的对象特定点轨迹和光流掩模。然后，我们使用对极几何和光流提供的运动信息构建两个鲁棒的亲和力矩阵，表示整个视频中成对对象运动亲和力。最后，使用共正则多视图谱聚类来融合两个亲和力矩阵并获得最终的聚类。我们的方法在 KT3DMoSeg 数据集上展示了最先进的性能，其中包含复杂的运动和场景结构。

Combining Two Adversarial Attacks Against Person Re-Identification Systems
Authors Eduardo de O. Andrade, Igor Garcia Ballhausen Sampaio, Joris Gu rin, Jos Viterbo
在深度神经网络（尤其是图像分类）的进步推动下，行人再识别领域最近受到了广泛关注。 Re ID的问题在于通过监控摄像头在不同场景下拍摄的图像来识别个体。政府和公司正在投入大量时间和金钱来开发重新识别系统，以用于公共安全和识别失踪人员。然而，成功实施 Re ID 仍面临一些挑战，例如人物图像中的遮挡和光反射。在这项工作中，我们重点关注 Re ID 系统的对抗性攻击，这可能对这些系统的性能构成严重威胁。特别是，我们探索了针对Re ID模型的对抗性攻击的组合，试图加强分类结果的下降。我们在三个数据集 DukeMTMC ReID、Market 1501 和 CUHK03 上进行实验。我们结合使用两种类型的对抗性攻击（P FGSM 和 Deep Mis Ranking），应用于两种流行的 Re ID 模型 IDE ResNet 50 和 AlignedReID。最佳结果表明，应用于 CUHK03 的 AlignedReID 的 Rank 10 指标下降了 3.36。

A Systematic Literature Review of Computer Vision Applications in Robotized Wire Harness Assembly
Authors Hao Wang, Omkar Salunkhe, Walter Quadrini, Bj rn Johansson, Dan L mkull, Fredrik Ore, M lanie Despeisse, Luca Fumagalli, Johan Stahre

MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP
Authors Prajwal Ganugula, Y S S S Santosh Kumar, N K Sagar Reddy, Prabhath Chellingi, Avinash Thakur, Neeraj Kasera, C Shyam Anand
由文本提示驱动的风格转移为创造性地风格化图像铺平了一条新的道路，而无需收集实际的风格图像。尽管通过文本驱动的风格化取得了有希望的结果，但用户无法控制风格化。如果用户想要创建艺术图像，则用户需要对内容图像中各个实体的风格化进行精细控制，而当前的现有技术方法无法解决这一问题。另一方面，扩散风格转移方法也遇到同样的问题，因为对风格化输出的区域风格化控制无效。为了解决这个问题，我们提出了一种新方法 Multi Object Segmented Arbitrary Stylization using CLIP MOSAIC ，它可以根据从输入提示中提取的上下文将样式应用于图像中的不同对象。基于视觉转换器架构的基于文本的分割和风格化模块用于对对象进行分割和风格化。与当前最先进的方法相比，我们的方法可以扩展到任意对象、样式并生成高质量的图像。据我们所知，这是执行文本引导的任意对象明智风格化的首次尝试。

Sound-Print: Generalised Face Presentation Attack Detection using Deep Representation of Sound Echoes
Authors Raghavendra Ramachandra, Jag Mohan Singh, Sushma Venkatesh
面部生物识别技术因其可用性和在不受约束的场景中提高的验证准确性而被广泛部署在基于智能手机的应用程序中。基于智能手机的面部识别应用的不断发展也增加了演示攻击 PA，攻击者可以通过演示演示攻击工具 PAI 来恶意获取对应用程序的访问权限。由于用于生成 PAI 的材料具有不确定性，因此未知呈现攻击的检测具有挑战性。在本文中，我们提出了一种智能手机上基于声学回声的人脸演示攻击检测 PAD，其中根据传输信号的反射轮廓检测 PA。我们提出了一种基于宽脉冲的新颖传输信号，允许我们在传输信号之前对背景噪声进行建模并提高信噪比 SNR。接收到的信号反射经过处理以消除背景噪声并准确地表示反射特性。由于人体皮肤和人工制品材料的反射特性不同，真实 PA 和 PA 的反射轮廓是不同的。使用新收集的声学回声数据集 ASED 进行了广泛的实验，其中包含从真实和四种不同类型的 PAI 中捕获的 4807 个样本，包括打印两种类型、显示和硅胶面罩攻击。

Video Adverse-Weather-Component Suppression Network via Weather Messenger and Adversarial Backpropagation
Authors Yijun Yang, Angelica I. Aviles Rivero, Huazhu Fu, Ye Liu, Weiming Wang, Lei Zhu
尽管卷积神经网络 CNN 已被提出使用一组预先训练的权重来消除单个图像中的不利天气条件，但由于缺乏时间信息，它们无法恢复天气视频。此外，现有的从视频中去除恶劣天气条件（例如雨、雾和雪）的方法只能处理一种类型的恶劣天气。在这项工作中，我们提出了第一个框架，通过开发视频恶劣天气成分抑制网络 ViWS Net 来恢复所有恶劣天气条件下的视频。为了实现这一目标，我们首先设计了一种具有多个变压器级的与天气无关的视频变压器编码器。此外，我们为天气信使设计了一种长期短期时间建模机制，以早期融合输入相邻视频帧并学习天气特定信息。我们进一步引入了具有梯度反转的天气鉴别器，通过对抗性预测天气类型来维持天气不变的公共信息并抑制像素特征中的天气特定信息。最后，我们开发了一个信使驱动的视频转换器解码器来检索残余天气特定特征，该特征与分层像素特征进行时空聚合，并进行细化以预测输入视频的干净目标帧。

Causal-DFQ: Causality Guided Data-free Network Quantization
Authors Yuzhang Shang, Bingxin Xu, Gaowen Liu, Ramana Kompella, Yan Yan
模型量化旨在压缩深度神经网络并加快推理速度，极大地促进了移动和边缘设备上繁琐模型的开发。先前工作中的量化方法有一个共同的假设：训练数据是可用的。然而在实践中，由于隐私和安全的原因，这种假设并不总是能够实现，使得这些方法在现实生活中不适用。因此，无数据网络量化最近在神经网络压缩中受到了极大的关注。因果推理提供了一种直观的方法来建模因果关系，以消除数据驱动的相关性，使因果关系成为分析无数据问题的重要组成部分。然而，文献中无数据量化的因果表述是不够的。为了弥补这一差距，我们构建了一个因果图来对数据生成进行建模，并减少预训练模型和量化模型之间的差异。受因果理解的启发，我们提出了因果引导的无数据网络量化方法，因果 DFQ，通过接近因果驱动的干预分布的平衡来消除对数据的依赖。具体来说，我们设计了一个内容风格解耦生成器，根据相关和不相关因素合成图像，然后提出差异减少损失来对齐预训练和量化模型的干预分布。值得注意的是，我们的工作是首次尝试将因果关系引入无数据量化问题。大量实验证明了因果 DFQ 的有效性。

BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign Language
Authors Naimul Haque, Meraj Serker, Tariq Bin Bashar
在孟加拉手语 BdSL 解释领域，先前的方法常常给用户带来负担，要求他们拼写没有隐藏字符的单词，随后由于 BdSL36 数据集中缺少类而使用孟加拉语法规则进行纠正。然而，这种方法对准确猜测单词的错误拼写提出了挑战。为了解决这个限制，我们提出了一种基于 YOLOv5 架构的新型实时手指拼写系统。我们的系统采用指定的规则和数字类别作为触发器，有效地生成隐藏和复合字符，消除了额外类别的必要性，并显着提高了用户的便利性。值得注意的是，我们的方法在令人印象深刻的 1.32 秒内实现了字符拼写，准确率高达 98 。此外，我们的 YOLOv5 模型在 9147 张图像上进行训练，表现出卓越的平均精度 mAP 为 96.4。这些进步代表了增强 BdSL 解释方面的重大进展，有望提高语言少数群体的包容性和可及性。

Deep Reinforcement Learning for Image-to-Image Translation
Authors Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Siwei Lyu
大多数现有的图像到图像转换 I2IT 方法在深度学习 DL 模型的单次运行中生成图像。然而，设计这样的单步模型总是具有挑战性，需要大量参数，并且很容易陷入不良的全局最小值和过度拟合。在这项工作中，我们通过深度强化学习 DRL 将 I2IT 重新表述为逐步决策问题，并提出了一种执行基于 RL 的 I2IT RL I2IT 的新颖框架。 RL I2IT 框架的关键特征是使用轻量级模型将整体学习过程分解为小步骤，以逐步将源图像连续转换为目标图像。考虑到在传统的 RL 框架中处理高维连续状态和动作空间具有挑战性，我们将具有新概念 Plan 的元策略引入到标准 Actor Critic 模型中，该模型的维度比原始图像更低，可以促进演员产生易于处理的高维动作。在RL I2IT框架中，我们还采用了特定于任务的辅助学习策略来稳定训练过程并提高相应任务的性能。

OneSeg: Self-learning and One-shot Learning based Single-slice Annotation for 3D Medical Image Segmentation
Authors Yixuan Wu, Bo Zheng, Jintai Chen, Danny Z. Chen, Jian Wu
随着深度学习方法不断提高医学图像分割性能，由于医学专家的劳动密集型和耗时的负担，数据标注仍然是一个很大的瓶颈，特别是对于3D图像。为了显着减少注释工作，同时获得有竞争力的分割精度，我们提出了一种基于自学习和一次性学习的 3D 医学图像分割框架，通过仅注释每个 3D 图像的一个切片。我们的方法分为两个步骤：1 重建网络的自学习，以学习 3D 图像内 2D 切片之间的语义对应关系，2 代表性选择单切片进行一次手动注释，并使用训练有素的重建网络传播注释数据。

Adaptation of the super resolution SOTA for Art Restoration in camera capture images
Authors Sandeep Nagar
保护文化遗产至关重要。在艺术品修复领域，开发能够有效修复艺术品劣化图像的计算机视觉模型很困难，但现在我们已经拥有良好的计算机视觉技术水平。传统的修复方法通常非常耗时并且需要广泛的专业知识。这项工作的目的是设计一种基于计算机视觉模型的自动化解决方案，可以增强和重建退化的艺术品，提高其视觉质量，同时保留其原始特征和文物。该模型应处理各种退化类型，包括但不限于噪声、模糊、划痕、褪色和其他常见形式的退化。我们根据扩散模型 DM 调整当前图像超分辨率的技术水平，并对其进行微调以进行图像艺术修复。我们的结果表明，我们不是针对不同类型的退化对多个不同模型进行微调，而是对一种超分辨率进行微调，而是在多个数据集上对其进行训练以使其具有鲁棒性。

ILNet: Low-level Matters for Salient Infrared Small Target Detection
Authors Haoqing Li, Jinfu Yang, Runshi Wang, Yifei Xu
红外小目标检测是一种从红外杂波背景中寻找小目标的技术。由于高层语义信息的缺乏，CNN深层的红外小目标特征被削弱，导致CNN的表示能力下降。为了解决上述问题，本文提出了一种红外低层网络ILNet，它将红外小目标视为语义信息很少的显着区域。与其他 SOTA 方法不同，ILNet 更加关注低层信息，而不是平等对待它们。提出了一种新的轻量级特征融合模块，称为交互式偏振正交融合模块IPOF，它将更重要的低层特征从浅层集成到深层。 IPOF中插入动态一维聚合层DODA，根据输入通道的数量动态调整低维信息的聚合。此外，利用集成学习的思想设计了Representative Block RB，为浅层和深层动态分配权重。在具有挑战性的 NUAA SIRST 78.22 nIoU 和 1.33e 6 Fa 以及 IRSTD 1K 68.91 nIoU 和 3.23e 6 Fa 数据集上的实验结果表明，所提出的 ILNet 可以获得比其他 SOTA 方法更好的性能。而且ILNet随着数据量的增加可以获得更大的提升。

GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph
Authors Xin Li, Dongze Lian, Zhihe Lu, Jiawang Bai, Zhibo Chen, Xinchao Wang
适配器式高效迁移学习 ETL 在低数据条件下的视觉语言模型 VLM 调优中表现出了出色的性能，其中仅引入一些额外参数即可基于 VLM 的通用且强大的表示来挖掘任务特定知识。然而，大多数适配器风格的工作面临两个限制，一是仅使用单一模态对特定于任务的知识进行建模，二是忽视了下游任务中类间关系的利用，从而导致次优解决方案。为了缓解这一问题，我们提出了一种有效的适配器风格调整策略，称为 GraphAdapter，它通过显式建模双模态结构知识来执行文本适配器，即文本和视觉模态中不同语义类与双知识图的相关性。特别地，双知识图由两个子图建立，即文本知识子图和视觉知识子图，其中节点和边分别表示两种模态的语义类及其相关性。这使得每个提示的文本特征能够利用来自文本和视觉模式的任务特定结构知识，从而为下游任务产生更有效的分类器。对 11 个基准数据集的广泛实验结果表明，我们的 GraphAdapter 显着优于以前基于适配器的方法。

PRIS: Practical robust invertible network for image steganography
Authors Hang Yang, Yitian Xu, Xuhua Liu, Xiaodong Ma
图像隐写术是一种将秘密信息隐藏在另一张图像中的技术，这样秘密就不会被人眼看到，并且可以在需要时恢复。现有的图像隐写方法大多在容器图像受畸变影响时隐藏鲁棒性较低。例如高斯噪声和有损压缩。本文提出了PRIS来提高图像隐写术的鲁棒性，它基于可逆神经网络，并在提取过程之前和之后放置两个增强模块，采用3步训练策略。此外，还考虑了舍入误差，现有方法往往忽略该误差，但实际上在实际应用中这是不可避免的。还提出了梯度逼近函数GAF来克服舍入失真的不可微问题。实验结果表明，我们的 PRIS 在鲁棒性和实用性方面都优于最先进的鲁棒图像隐写术方法。

Changes-Aware Transformer: Learning Generalized Changes Representation
Authors Dan Wang, Licheng Jiao, Jie Chen, Shuyuan Yang, Fang Liu
通过比较两个时期的图像获得的差异特征在变化检测CD任务中起着不可或缺的作用。然而，一对双时图像可以表现出不同的变化，这可能导致各种差异特征。因此，将具有不同差异特征的变化像素识别为同一类别对于CD来说是一个挑战。如今大多数方法以隐式方式获取显着的差异特征，例如增强图像表示或监督信息。然而，信息图像特征仅保证对象语义被建模，并不能保证变化的像素在差异特征空间中具有相似的语义并且与那些未变化的像素不同。在这项工作中，在差异特征空间中直接学习各种变化的广义表示，并提出了一种用于细化差异特征的新颖的变化感知变换器CAT。这种广义表示可以感知哪些像素发生了变化，哪些像素没有变化，并进一步指导像素差异特征的更新。 CAT通过堆叠的余弦交叉注意力层和自注意力层有效地完成了这个细化过程。经过细化后，差异特征空间中变化的像素彼此更加接近，有利于变化检测。此外，CAT还兼容各种骨干网络和现有的CD方法。

VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph
Authors Jicheng Yuan, Anh Le Tuan, Manh Nguyen Duc, Trung Kien Tran, Manfred Hauswirth, Danh Le Phuoc
具有异构特征的大量视觉数据的可用性是新计算机视觉 CV 算法和架构的开发、测试和基准测试的关键因素。大多数视觉数据集是为特定任务创建和管理的，或者是针对非常特定情况的有限图像数据分布，并且没有统一的方法来管理和跨不同来源、任务和分类法访问它们。这不仅在构建强大的视觉识别系统时产生不必要的开销，而且还会在学习系统中引入偏见并限制以数据为中心的人工智能的能力。为了解决这些问题，我们提出了视觉知识图 VisionKG，这是一种通过知识图和语义网技术互连、组织和管理视觉数据集的新颖资源。它可以作为一个统一的框架，促进对最先进的视觉数据集的简单访问和查询，无论其异构格式和分类法如何。我们的方法与现有方法之间的主要区别之一是我们的方法是基于知识而不是基于元数据。它增强了图像和实例级别语义的丰富性，并通过 SPARQL 提供各种数据检索和探索服务。

Vulnerabilities in Video Quality Assessment Models: The Challenge of Adversarial Attacks
Authors Ao Xiang Zhang, Yu Ran, Weixuan Tang, Yuan Gen Wang
无参考视频质量评估 NR VQA 在改善最终用户的观看体验方面发挥着至关重要的作用。在深度学习的驱动下，最近基于卷积神经网络CNN和Transformers的NR VQA模型取得了出色的性能。为了建立一个可靠、实用的评估体系，非常有必要对其稳健性进行评估。然而，这一问题却很少受到学术界的关注。在本文中，我们首次尝试评估黑盒设置下NR VQA模型对抗对抗攻击的鲁棒性，并提出了一种针对黑盒攻击的基于补丁的随机搜索方法。具体来说，考虑到攻击对质量得分的影响和对抗视频的视觉质量，攻击问题被表述为在仅显着差异 JND 的约束下误导估计的质量得分。基于这样的公式，一种称为分数反向边界损失的新颖损失函数被设计为将对抗性视频的估计质量分数推向远离其真实分数的特定边界，并且 JND 约束被建模为严格的 L 2 和 L无限范数限制。通过这种方式，白盒和黑盒攻击都可以以有效且难以察觉的方式发起。

MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field
Authors Zijiang Yang, Zhongwei Qiu, Chang Xu, Dongmei Fu
3D风格迁移旨在以指定的风格渲染3D场景的风格化新颖视图，这需要高质量的渲染并保持多视图一致性。受益于神经辐射场 NeRF 的 3D 表示能力，现有方法通过给出图像的参考样式来学习风格化 NeRF。然而，他们面临着高质量风格化和多风格转移纹理细节以及多模式指导风格化的挑战。在本文中，我们揭示了3D场景中的相同对象在风格化后从不同视图显示不同状态的色调、细节等，因为之前的方法是通过基于单视图图像的风格损失函数进行优化的，导致NeRF倾向于平滑纹理细节，进一步导致低质量的渲染。为了解决这些问题，我们提出了一种新颖的 NeRF 多模态引导 3D 多风格传输，称为 MM NeRF，它实现了具有纹理细节的高质量 3D 多风格渲染，并且可以由多模态风格指导驱动。首先，MM NeRF采用统一的框架将多模态指导投影到CLIP空间中，并提取多模态风格特征来指导多风格风格化。为了解决缺乏细节的问题，我们提出了一种新颖的多头学习方案 MLS，其中每个样式头预测 NeRF 颜色头的参数。 MLS分解了多风格迁移不一致带来的学习困难，提高了风格化的质量。此外，MLS 可以通过添加头部来将预训练的 MM NeRF 推广到任何新风格，只需几分钟的小训练成本。对三个真实世界 3D 场景数据集的大量实验表明，MM NeRF 通过多模态指导实现了高质量的 3D 多风格风格化，保持了多视图一致性，并保持了多模态风格指导的语义一致性。

FaceAtt: Enhancing Image Captioning with Facial Attributes for Portrait Images
Authors Naimul Haque, Iffat Labiba, Sadia Akter
自动图像标题生成是一个关键的研究领域，它可以增强不同受众对视觉内容的可访问性和理解。在这项研究中，我们提出了 FaceAtt 模型，这是一种以属性为中心的图像字幕的新颖方法，强调图像中面部属性的准确描述。 FaceAtt 自动检测和描述各种属性，包括情绪、表情、尖鼻子、白皙肤色、头发纹理、吸引力和大致年龄范围。利用深度学习技术，我们探索不同图像特征提取方法对字幕质量的影响，并使用 BLEU 和 METEOR 等指标评估我们模型的性能。我们的 FaceAtt 模型利用肖像的注释属性作为字幕之前肖像图像的补充先验知识。这种创新的添加在结果分数中产生了微妙但明显的增强，例证了在训练期间合并附加属性向量的效力。此外，我们的研究有助于更广泛地讨论自动字幕中的道德考虑。

Multi-Dimensional Hyena for Spatial Inductive Bias
Authors Itamar Zimerman, Lior Wolf
近年来，视觉变形金刚引起了计算机视觉研究人员越来越多的兴趣。然而，这些 Transformer 相对于 CNN 的优势只有在大型数据集上进行训练时才能充分体现出来，这主要是由于 Transformer 自注意力机制中对空间局部性的归纳偏差减少了。在这项工作中，我们提出了一种不依赖自注意力的数据高效视觉转换器。相反，它对最近鬣狗层的多个轴采用了一种新颖的概括。

On the Posterior Distribution in Denoising: Application to Uncertainty Quantification
Authors Hila Manor, Tomer Michaeli
降噪器在许多应用中发挥着核心作用，从低级成像传感器中的噪声抑制到支持基于分数的生成模型。后一类方法利用 Tweedie 公式，将高斯去噪中的后验均值（即最小 MSE 去噪器）与数据分布的分数联系起来。在这里，我们推导出后验分布的高阶中心矩与后验均值的高阶导数之间的基本关系。我们利用这个结果对预先训练的降噪器进行不确定性量化。特别是，我们展示了如何有效计算图像任何所需区域的后验分布的主成分，以及沿着这些或任何其他一维方向近似完整边缘分布。我们的方法快速且内存高效，因为它没有显式计算或存储高阶矩张量，并且不需要对降噪器进行训练或微调。

Advancements in 3D Lane Detection Using LiDAR Point Clouds: From Data Collection to Model Development
Authors Runkai Zhao, Yuwen Heng, Yuanda Gao, Shilei Liu, Heng Wang, Changhao Yao, Jiawen Chen, Weidong Cai
高级驾驶员辅助系统 ADAS 已成功地将基于学习的技术集成到车辆感知和决策中。然而，由于缺乏全面的激光雷达数据集，它们在有效驾驶环境感知的 3D 车道检测中的应用受到阻碍。 LiDAR 点云数据的稀疏性阻碍了高效的手动注释过程。为了解决这个问题，我们提出了 LiSV 3DLane，这是一个大规模 3D 车道数据集，包含 20k 帧环视 LiDAR 点云，具有丰富的语义注释。与仅限于正面视角的现有数据集不同，LiSV 3DLane 提供了自我车辆周围的完整 360 度空间全景，捕获城市和高速公路环境中的复杂车道模式。我们利用车道线的几何特征和激光雷达数据的内在空间属性来设计一个简单而有效的自动注释管道，以生成更精细的车道标签。为了推动未来的研究，我们提出了一种基于 LiDAR 的新型 3D 车道检测模型 LiLaDet，它将 LiDAR 点云的空间几何学习融入到基于鸟瞰 BEV 的车道识别中。

A SAM-based Solution for Hierarchical Panoptic Segmentation of Crops and Weeds Competition
Authors Khoa Dang Nguyen, Thanh Hai Phung, Hoang Giang Cao
农业中的全景分割是一种先进的计算机视觉技术，可以提供对田地组成的全面理解。它促进了农作物和杂草分割、植物全景分割和叶子实例分割等各种任务，所有这些任务都旨在解决农业中的挑战。为了探索全景分割在农业中的应用，第八届植物表型和农业计算机视觉研讨会 CVPPA 主办了使用 PhenoBench 数据集对农作物和杂草进行分层全景分割的挑战。为了解决本次竞赛中提出的任务，我们提出了一种方法，将实例分割的 Segment AnyThing Model SAM 的有效性与对象检测模型的即时输入相结合。具体来说，我们集成了物体检测中两种著名的方法，即 DINO 和 YOLO v8。

Multivariate Prototype Representation for Domain-Generalized Incremental Learning
Authors Can Peng, Piotr Koniusz, Kaiyu Guo, Brian C. Lovell, Peyman Moghadam
当使用新类的样本进行微调时，深度学习模型会遭受灾难性的遗忘。当面临训练数据和测试数据之间的领域转换时，这个问题变得更加明显。在本文中，我们研究了关键且较少探索的领域广义类增量学习 DGCIL。我们设计了一种 DGCIL 方法，它可以记住旧类、适应新类，并且可以可靠地对未见过的域中的对象进行分类。具体来说，我们的损失公式保持了分类边界并抑制了每个类别的域特定信息。在没有存储旧样本的情况下，我们使用知识蒸馏并估计旧类原型漂移作为增量训练的进展。我们的原型表示基于多元正态分布，其均值和协方差不断适应不断变化的模型特征，以通过适应特征空间漂移来很好地表示旧类。对于旧类，我们借助 Cholesky 分解从适应的正态分布中采样伪特征。与之前仅依赖平均平均原型的伪特征采样策略相比，我们的方法擅长捕获不同的语义信息。

LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning
Authors Liulei Li, Wenguan Wang, Yang Yi
当前的高性能语义分割模型纯粹是数据驱动的子符号方法，对视觉世界的结构化本质视而不见。这与人类认知形成鲜明对比，人类认知在多个层面上抽象视觉感知，并通过这种结构化抽象进行符号推理。为了填补这些基本空白，我们设计了 LOGICSEG，这是一种整体视觉语义解析器，它将神经归纳学习和逻辑推理与丰富的数据和符号知识相结合。特别地，感兴趣的语义概念被构造为层次结构，从中导出一组约束用于描述符号关系并形式化为一阶逻辑规则。在基于模糊逻辑的连续松弛之后，逻辑公式基于数据和神经计算图，从而实现逻辑诱导的网络训练。在推理过程中，逻辑约束被打包成一个迭代过程，以多次矩阵乘法的形式注入到网络中，从而实现逻辑推理的层次相干预测。这些设计共同使 LOGICSEG 成为通用且紧凑的神经逻辑机，可以轻松集成到现有的分割模型中。对具有各种分割模型和主干的四个数据集进行的广泛实验验证了 LOGICSEG 的有效性和通用性。

Decoding Radiologists Intense Focus for Accurate CXR Diagnoses: A Controllable and Interpretable AI System
Authors Trong Thang Pham, Jacob Brecheisen, Anh Nguyen, Hien Nguyen, Ngan Le
在胸部 X 射线 CXR 诊断领域，现有工作通常仅专注于确定放射科医生的观察位置，通常通过检测、分割或分类等任务。然而，这些方法通常被设计为黑盒模型，缺乏可解释性。在本文中，我们介绍了一种新颖且统一的可控可解释管道，用于解码放射科医生在 CXR 诊断中的强烈关注点。我们的方法解决了放射科医生在哪里检查、他们关注特定区域多长时间以及他们诊断出什么结果等三个关键问题。通过捕捉放射科医生注视的强度，我们提供了一个统一的解决方案，可以深入了解放射学解释背后的认知过程。与目前依赖黑盒机器学习模型的方法不同，黑盒机器学习模型在诊断过程中很容易从整个输入图像中提取错误信息，我们通过有效屏蔽不相关信息来解决这个问题。我们的方法利用视觉语言模型，允许精确控制解释过程，同时确保排除不相关的特征。为了训练我们的模型，我们利用眼睛注视数据集来提取解剖注视信息并生成地面实况热图。通过广泛的实验，我们证明了我们方法的有效性。

DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning
Authors Kangyang Luo, Shuai Wang, Yexuan Fu, Xiang Li, Yunshi Lan, Ming Gao
联邦学习 FL 是一种隐私受限的去中心化机器学习范例，客户可以在不损害私人数据的情况下进行协作训练。然而，如何在数据异构和模型异构 FL 场景中学习鲁棒的全局模型具有挑战性。为了解决这个问题，我们借助无数据知识蒸馏提出了一种新的 FL 方法，即 DFRD 。 DFRD在服务器上配备条件生成器来近似客户端上传的本地模型的训练空间，并系统地研究其训练的保真度、可迁移性和多样性。为了克服由于生成器在通信轮次中的分布变化而导致的全局模型的灾难性遗忘，我们在服务器上维护生成器的指数移动平均副本。此外，我们提出动态加权和标签采样，以准确地从本地模型中提取知识。

Semi-Supervised Domain Generalization for Object Detection via Language-Guided Feature Alignment
Authors Sina Malakouti, Adriana Kovashka
目标检测中现有的域自适应 DA 和泛化 DG 方法强制视觉空间中的特征对齐，但面临目标外观可变性和场景复杂性等挑战，这使得难以区分目标并实现准确检测。在本文中，我们首次通过探索视觉语言预训练和通过语言空间强制特征对齐来解决半监督领域泛化问题。我们采用了一种新颖的跨域描述性多尺度学习 CDDMSL，旨在最大化嵌入空间中具有不同域特定特征的图像描述之间的一致性。 CDDMSL 显着优于现有方法，在 DG 和 DA 设置方面分别实现了 11.7 和 7.5 的改进。

Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction
Authors Zechuan Zhang, Li Sun, Zongxin Yang, Ling Chen, Yi Yang
从单个图像重建 3D 穿着人类头像是一项具有挑战性的任务，特别是在遇到复杂的姿势和宽松的衣服时。当前的方法在性能上表现出局限性，很大程度上归因于它们依赖于不足的二维图像特征和不一致的查询方法。因此，我们提出了用于服装头像重建的全局相关 3D 解耦 Transformer GTA，这是一种基于变压器的新型架构，可以从单眼图像重建穿着服装的人类头像。我们的方法通过利用 Vision Transformer 模型作为编码器来捕获全局相关图像特征，从而利用 Transformer 架构。随后，我们创新的 3D 解耦解码器采用交叉注意力来解耦三平面特征，使用可学习的嵌入作为跨平面生成的查询。为了有效地增强三平面 3D 特征和人体先验的特征融合，我们提出了一种结合空间和先验增强查询的混合先验融合策略，利用空间定位和人体先验知识的优势。对 CAPE 和 THuman2.0 数据集的综合实验表明，我们的方法在几何和纹理重建方面均优于最先进的方法，对具有挑战性的姿势和宽松的衣服表现出高鲁棒性，并产生更高分辨率的纹理。

LiDAR-UDA: Self-ensembling Through Time for Unsupervised LiDAR Domain Adaptation
Authors Amirreza Shaban, JoonHo Lee, Sanghun Jung, Xiangyun Meng, Byron Boots
我们介绍了 LiDAR UDA，这是一种新颖的基于两阶段自训练的用于 LiDAR 分割的无监督域适应 UDA 方法。现有的自训练方法使用在标记源数据上训练的模型来生成目标数据的伪标签，并通过在伪标签上微调网络来完善预测。这些方法会受到源域和目标域中不同 LiDAR 传感器配置引起的域转移的影响。我们提出了两种技术来减少传感器差异并提高伪标签质量 1 LiDAR 光束子采样，通过随机丢弃光束来模拟不同的 LiDAR 扫描模式 2 跨帧集成，利用连续帧的时间一致性来生成更可靠的伪标签。我们的方法简单、可推广，并且不会产生任何额外的推理成本。我们在几个公共 LiDAR 数据集上评估了我们的方法，结果表明，在所有场景下，它的平均性能优于最先进的方法超过 3.9 mIoU。

InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation
Authors Cho Ying Wu, Quankai Gao, Chin Cheng Hsu, Te Lin Wu, Jing Wen Chen, Ulrich Neumann
室内单目深度估计引起了越来越多的研究兴趣。之前的大多数工作都集中在方法论上，主要是用 NYU Depth V2 NYUv2 数据集进行实验，并且只关注测试集的整体性能。然而，当将单目深度估计方法应用于存在高度变化和多样化的功能文本空间类型（例如图书馆或厨房）的现实世界场景时，人们对鲁棒性和泛化性知之甚少。将性能分解为空间类型的研究对于实现预训练模型的性能差异至关重要。为了促进我们的稳健性调查并解决先前工作的局限性，我们收集了 InSpaceType，这是一个适用于一般室内环境的高质量、高分辨率 RGBD 数据集。我们对 InSpaceType 上的 11 种最新方法进行了基准测试，发现它们严重遭受空间类型方面的性能不平衡的影响，这揭示了它们的潜在偏差。我们将分析扩展到其他 4 个数据集、3 种缓解方法以及推广到未见过的空间类型的能力。我们的工作标志着首次对室内单目深度估计的空间类型之间的性能不平衡进行深入研究，提请人们注意在不考虑空间类型的情况下模型部署的潜在安全问题，并进一步揭示提高鲁棒性的潜在方法。

Object Classification Model Using Ensemble Learning with Gray-Level Co-Occurrence Matrix and Histogram Extraction
Authors Florentina Tatrin Kurniati, Daniel HF Manongga, Eko Sediyono, Sri Yulianto Joko Prasetyo, Roy Rudolf Huizen
在物体分类领域，基于物体变化的识别本身就是一个挑战。变化包括形状、大小、颜色和纹理，这些可能会导致准确识别和区分物体的问题。这项研究的目的是开发一种分类方法，以便能够准确地识别物体。所提出的分类模型使用投票和组合分类器，以及随机森林、K NN、决策树、SVM 和朴素贝叶斯分类方法。测试结果表明，投票方法和组合分类器各自获得了很好的结果，集成投票的准确度值为92.4，查准率78.6，召回率95.2，F1分数86.1。而组合分类器的准确度值为 99.3，精确度为 97.6，召回率为 100，F1 分数为 98.8。根据测试结果，可以得出结论，使用组合分类器和投票方法被证明可以提高准确性值。

Bridging Semantic Gaps for Language-Supervised Semantic Segmentation
Authors Yun Xing, Jian Kang, Aoran Xiao, Jiahao Nie, Shao Ling, Shijian Lu
视觉语言预训练展示了其卓越的零镜头识别能力和从语言监督中学习通用视觉表示的潜力。语言监督语义分割向前迈出了一步，通过仅从图像文本对学习像素分组来实现文本输入的空间定位。然而，现有技术在视觉和文本模态之间存在明显的语义差距，图像中出现的大量视觉概念在其配对的标题中缺失。这种语义错位在预训练中循环，由于文本表示中捕获的视觉概念不足，导致密集预测中的零镜头性能较差。为了弥补这种语义差距，我们提出了 Concept Curation CoCu，这是一种利用 CLIP 来补偿缺失语义的管道。对于每个图像文本对，我们建立一个概念档案，通过我们提出的视觉驱动扩展和文本到视觉引导的排名来维护潜在的视觉匹配概念。因此，可以通过集群引导采样来识别相关概念并将其输入到预训练中，从而弥合视觉和文本语义之间的差距。

Portrait Stylization: Artistic Style Transfer with Auxiliary Networks for Human Face Stylization
Authors Thiago Ambiel
如今的图像风格迁移方法很难在整个风格化过程后保留人类面部的个体特征。发生这种情况是因为诸如 VGG 19 预训练模型之类的通用图像分类器无法捕获面部几何形状和人物表情等特征。

Identifying Systematic Errors in Object Detectors with the SCROD Pipeline
Authors Valentyn Boreiko, Matthias Hein, Jan Hendrik Metzen
识别和消除物体检测器中的系统错误可能是将其部署在自动驾驶和机器人等安全关键应用中的先决条件。例如，此类系统误差可能发生在非常特定的对象姿势位置、比例、方向、对象颜色纹理和背景下。仅真实图像不可能涵盖所有相关组合。我们通过生成具有精细粒度控制的合成图像来克服这一限制。虽然使用物理模拟器和手工设计的 3D 资产生成合成图像可以对生成的图像进行细粒度控制，但这种方法是资源密集型的，并且可扩展性有限。相比之下，使用生成模型更具可扩展性，但在细粒度控制方面可靠性较差。在本文中，我们提出了一种结合了两种方法优点的新颖框架。我们精心设计的管道和自定义模型使我们能够以完全自动化和可扩展的方式生成具有细粒度控制的街道场景。此外，我们的框架引入了一个评估设置，可以作为类似管道的基准。

Edge Aware Learning for 3D Point Cloud
Authors Lei Li
本文提出了一种分层边缘感知 3D 点云学习 HEA 网络的创新方法，旨在解决点云数据中的噪声挑战，并通过关注边缘特征来改进对象识别和分割。在这项研究中，我们提出了一种创新的边缘感知学习方法，专门用于增强点云分类和分割。从人类视觉系统中汲取灵感，边缘感知的概念已被纳入该方法中，有助于改进对象识别，同时减少计算时间。我们的研究开发了先进的 3D 点云学习框架，可有效管理对象分类和分割任务。采用了本地和全局网络学习范式的独特融合，并通过以边缘为中心的本地和全局嵌入来丰富，从而显着增强了模型的解释能力。此外，我们应用了分层变压器架构来提高点云处理效率，从而为结构理解提供细致入微的见解。我们的方法展示了在管理噪声点云数据方面的巨大前景，并强调了边缘感知策略在 3D 点云学习中的潜力。

HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot Classification with Unimodal Cues
Authors Ankit Jha, Debabrata Pal, Mainak Singha, Naman Agarwal, Biplab Banerjee
遥感遥感或航空图像的识别目前引起了人们的极大兴趣，近年来深度学习算法的进步为其增添了色彩。使用单峰 RS 视觉输入训练神经网络时，可能会出现遮挡、类内方差、光照等问题。尽管视听模式的联合训练提高了低数据条件下的分类性能，但尚未在 RS 领域进行彻底研究。在这里，我们的目标是解决一个新问题，其中在一些镜头学习 FSL 分类器的元训练期间同时存在音频和视觉模态，但是在元测试阶段可能会丢失其中一种模态。考虑到数据采集或传感器故障的困难，这个问题的表述与 RS 领域相关。为了缓解这种情况，我们提出了一种新颖的少数镜头生成框架，幻听视听嵌入网络 HAVE Net，以从有限的单模态数据中元训练跨模态特征。准确地说，这些幻觉特征是从基类中元学习的，并在推理阶段用于新类的少量镜头分类。

Video Timeline Modeling For News Story Understanding
Authors Meng Liu, Mingda Zhang, Jialu Liu, Hanjun Dai, Ming Hsuan Yang, Shuiwang Ji, Zheyun Feng, Boqing Gong
在本文中，我们提出了一个新问题，即视频时间线建模。我们的目标是从与特定主题相关的一组视频创建一个视频相关时间线，从而促进对所讲述故事的内容和结构的理解。这个问题在各种现实世界的应用中具有巨大的潜力，例如新闻故事摘要。为了引导这一领域的研究，我们策划了一个现实的基准数据集，YouTube 新闻时间线，由超过 12,000 个时间线和 300,000 个 YouTube 新闻视频组成。此外，我们提出了一套定量指标作为全面评估和比较方法的协议。有了这样的测试平台，我们进一步开发和基准测试探索性深度学习方法来解决这个问题。我们预计这项探索性工作将为视频时间线建模的进一步研究铺平道路。

Rethinking superpixel segmentation from biologically inspired mechanisms
Authors TingYu Zhao, Bo Peng, Yuan Sun, DaiPeng Yang, ZhenGuang Zhange, Xi Wu
最近，基于深度学习的超像素分割方法的进步带来了分割效率和性能的提高。然而，生成严格遵守对象边界同时传达丰富视觉意义的超像素仍然是一个重大挑战，特别是当跨表面颜色相关性可能干扰对象时。从神经结构和视觉机制中汲取灵感，我们提出了一种生物网络架构，包括增强型筛选模块 ESM 和用于超像素分割的新型边界感知标签 BAL。 ESM通过模拟视觉皮层的交互投影机制来增强语义信息。此外，BAL 模拟视觉皮层细胞的空间频率特性，以促进具有强边界粘附性的超像素的生成。

Dual-Reference Source-Free Active Domain Adaptation for Nasopharyngeal Carcinoma Tumor Segmentation across Multiple Hospitals
Authors Hongqiu Wang, Jian Chen, Shichen Zhang, Yuan He, Jinfeng Xu, Mengwan Wu, Jinlan He, Wenjun Liao, Xiangde Luo
鼻咽癌 NPC 是一种常见且具有临床意义的恶性肿瘤，主要影响头颈部区域。精确勾画大体肿瘤体积GTV对于确保鼻咽癌的有效放疗起着关键作用。尽管最近的方法在 GTV 分割方面取得了可喜的结果，但它们仍然受到缺乏仔细注释的数据以及难以在临床实践中获取来自多个医院的数据的限制。尽管已经提出了一些无监督域适应 UDA 来缓解这个问题，但无条件映射分布会扭曲底层结构信息，导致性能较差。为了应对这一挑战，我们设计了一种新颖的无源主动域适应 SFADA 框架，以促进 GTV 分割任务的域适应。具体来说，我们设计了一种双重参考策略，从特定目标域中选择域不变和特定于域的代表性样本进行注释和模型微调，而不依赖于源域数据。我们的方法不仅确保了数据隐私，还减少了肿瘤学家的工作量，因为它只需要注释目标域中的一些代表性样本，而不需要访问源数据。我们收集了来自五家医院的 1057 名鼻咽癌患者的大规模临床数据集来验证我们的方法。实验结果表明，我们的方法优于 UDA 方法，即使注释很少，也能达到与完全监督上限相当的结果，这凸显了我们方法的重要医疗效用。

AgriSORT: A Simple Online Real-time Tracking-by-Detection framework for robotics in precision agriculture
Authors Leonardo Saraceni, Ionut M. Motoi, Daniele Nardi, Thomas A. Ciarfuglia
多目标跟踪 MOT 的问题在于检测和跟踪视频序列中的所有目标，同时为每个目标保留唯一的标识符。对于机器人技术来说，这是一个具有挑战性的基本问题。在精准农业中，极端的相机运动、突然的光照变化和强烈的遮挡加剧了实现令人满意的解决方案的挑战。大多数现代跟踪器依赖于物体的外观而不是运动来进行关联，当大多数目标是具有相同外观的静态物体时，这可能是无效的，就像在农业案例中一样。为此，在 SORT 5 的基础上，我们提出了 AgriSORT，这是一种简单、在线、实时的精准农业检测管道跟踪，仅基于运动信息，允许在帧之间准确、快速地传播轨迹。 AgriSORT 的主要关注点是效率、灵活性、最小依赖性以及在机器人平台上易于部署。我们根据在鲜食葡萄葡萄园中拍摄的视频序列，在专为农业环境量身定制的新型 MOT 基准上测试了拟议的管道，由于实例的强烈自相似性和密度，特别具有挑战性。

YOLORe-IDNet: An Efficient Multi-Camera System for Person-Tracking
Authors Vipin Gautam, Shitala Prasad, Sharad Sinha
公共场所对视频监控的需求不断增长，催生了对能够通过多个摄像头实时跟踪个人的系统的需求。虽然现有的跟踪系统使用深度学习模型取得了令人印象深刻的性能，但它们通常依赖于预先存在的嫌疑人图像或历史数据。然而，在事先不知情的情况下实时识别可疑人员的情况下，这并不总是可行。我们提出了一种行人跟踪系统，该系统结合了相关滤波器和 Intersection Over Union IOU 约束以实现鲁棒跟踪，以及基于 YOLOv5 的跨摄像机行人重新识别 Re ID 的深度学习模型。所提出的系统跨多个摄像头实时快速识别和跟踪嫌疑人，并在完全或部分遮挡后恢复良好，使其适合安全和监控应用。正如我们对公开可用的 OTB 100 数据集的评估所示，它的计算效率很高，可与现有最先进的算法相媲美，实现了 79 的高 F1 分数和 59 的 IOU。所提出的系统为跨多个摄像头实时跟踪个人提供了强大而高效的解决方案。

Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers
Authors Adam Pardyl, Grzegorz Kurzejamski, Jan Olszewski, Tomasz Trzci ski, Bartosz Zieli ski
视觉转换器在各种计算机视觉任务中表现出色，但主要依赖于使用固定大小的补丁网格的严格输入采样。这限制了它们在现实世界问题中的适用性，例如在机器人和无人机领域，人们可以利用更高的输入弹性来提高模型性能和效率。我们的论文通过形式化视觉转换器的输入弹性概念并引入评估协议（包括用于测量输入弹性的专用指标）来解决这一限制。此外，我们建议对变压器架构和训练制度进行修改，以增加其弹性。

FedDrive v2: an Analysis of the Impact of Label Skewness in Federated Semantic Segmentation for Autonomous Driving
Authors Eros Fan , Marco Ciccone, Barbara Caputo
我们提出 FedDrive v2，这是自动驾驶语义分割联邦学习基准的扩展。虽然第一个版本旨在研究跨客户端视觉特征的域转移的影响，但在这项工作中，我们重点关注标签的分布偏度。我们提出了六个新的联合场景来研究标签偏度如何影响分割模型的性能，并将其与域转移的效果进行比较。

Class Attendance System in Education with Deep Learning Method
Authors H daverdi Demir, Serkan Sava
随着技术的进步，计算机硬件增益和处理器处理能力的提高，方便了瞬时、实时图像的处理。人脸识别过程也是图像处理领域的研究。面部识别过程经常用于安全应用和商业应用。特别是在过去的20年里，人工智能AI研究的高性能促进了这些研究在许多不同领域的传播。教育就是其中之一。在教育中使用人工智能的潜力和优势可以分为学生、教师和机构三个标题。其中一项机构研究可能是教育环境的安全以及自动化对教育和培训过程的贡献。从这个角度来看，本研究使用了人工智能子分支之一的深度学习方法。对于图像中的对象检测，我们设计并成功实施了一项开创性的研究，以记录学生进入教育机构的情况，并使用图像处理算法使用相机拍摄的图像来记录课堂出勤情况。

Tackling the Incomplete Annotation Issue in Universal Lesion Detection Task By Exploratory Training
Authors Xiaoyu Bai, Benteng Ma, Changyang Li, Yong Xia
通用病变检测旨在检测医学图像上多个器官的各种类型病变，具有重要的临床实践价值。深度学习方法已显示出有希望的结果，但需要大量带注释的数据进行训练。然而，注释医学图像成本高昂并且需要专业知识。医学图像中物体的不同形式和对比度使得完全注释变得更加困难，导致注释不完整。在此类数据集上直接训练 ULD 检测器可能会产生次优结果。基于伪标签的方法检查训练数据并挖掘未标记的对象进行再训练，这已被证明可以有效解决这个问题。目前，性能最佳的方法依赖于动态标签挖掘机制，在小批量级别上运行。然而，模型的性能在不同的迭代中存在差异，导致挖掘的标签质量不一致，限制了其性能提升。受到深度模型学习复杂性不断增加的概念这一观察的启发，我们引入了一种创新的探索性训练来评估开采病变随时间的可靠性。具体来说，我们引入了一个教师学生检测模型作为基础，其中教师的预测与不完整的注释相结合来训练学生。此外，我们设计了一个预测库来记录高置信度预测。每个样本都经过多次训练，使我们能够获得每个样本的记录序列。如果预测始终出现在记录序列中，则它很可能是真实的对象，否则它可能只是噪声。这是选择可靠的矿坑进行再训练的关键标准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com