【AI视野·今日CV 计算机视觉论文速览第248期】Mon, 18 Sep 2023

本文链接：https://blog.csdn.net/u014636245/article/details/132999647

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 18 Sep 2023
Totally 83 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚Robust e-NeRF,处理高速且大噪声事件相机流的NERF模型。(from NUS新加坡国立)
稀疏噪声事件与稠密事件数据的区别：
在这里插入图片描述
模型架构：

项目网站：https://wengflow.github.io/robust-e-nerf/

Daily Computer Vision Papers

Robust e-NeRF: NeRF from Sparse & Noisy Events under Non-Uniform Motion
Authors Weng Fei Low, Gim Hee Lee
由于其独特的低功耗、低延迟、高时间分辨率和高动态范围的工作原理，事件摄像机比标准摄像机具有许多优势。尽管如此，许多下游视觉应用的成功也取决于高效且有效的场景表示，其中神经辐射场 NeRF 被视为主要候选者。事件相机和 NeRF 的这种前景和潜力激发了最近研究从移动事件相机重建 NeRF 的工作。然而，这些工作主要受限于对密集和低噪声事件流的依赖，以及对任意对比度阈值和相机速度配置文件的泛化。在这项工作中，我们提出了 Robust e NeRF，这是一种新颖的方法，可以在各种现实世界条件下从移动事件摄像机直接、鲁棒地重建 NeRF，特别是从非匀速运动下生成的稀疏和噪声事件。它由两个关键组件组成，一个是现实事件生成模型，该模型考虑了各种内在参数，例如与时间无关、不对称阈值和不应期以及非理想性，例如像素到像素阈值变化，以及一对互补的归一化重建损失，可以有效地推广到任意速度曲线和内在参数值，而无需先验知识。对真实和新颖的真实模拟序列的实验验证了我们的有效性。

Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes
Authors Fabien Delattre, David Dirnfeld, Phat Nguyen, Stephen Scarano, Michael J. Jones, Pedro Miraldo, Erik Learned Miller
我们提出了一种通过手持单目视频估计拥挤的现实世界场景中相机旋转的方法。虽然相机旋转估计是一个经过充分研究的问题，但之前没有任何方法在此设置下同时表现出高精度和可接受的速度。由于其他数据集无法很好地解决该设置，因此我们在 17 个视频序列上提供了一个新的数据集和基准，具有高精度、经过严格验证的基本事实。为宽基线立体开发的方法，例如 5 点方法在单目视频上表现不佳。另一方面，自动驾驶中使用的方法（例如 SLAM）利用特定的传感器设置、特定的运动模型或滞后于批处理的本地优化策略，并且不能很好地推广到手持视频。最后，对于动态场景，常用的鲁棒性技术（如 RANSAC）需要大量迭代，并且变得非常慢。我们在 SO 3 上引入了霍夫变换的新颖概括，以有效且稳健地找到与光流最兼容的相机旋转。在相对较快的方法中，我们的方法比次佳方法减少了近 50 倍的误差，并且无论速度如何，都比任何方法都更准确。这代表了拥挤场景的强大新性能点，这是计算机视觉的重要设置。

Replacing softmax with ReLU in Vision Transformers
Authors Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith
先前的研究观察到，当用 ReLU 等逐点激活替换注意力 softmax 时，准确性会下降。在视觉变换器的背景下，我们发现当除以序列长度时，这种退化得到了缓解。

Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding
Authors Xiaonan Lu, Jianlong Yuan, Ruigang Niu, Yuan Hu, Fan Wang
最近，预训练视觉语言基础模型 VLFM 的开发在许多任务中取得了显着的性能。然而，这些模型往往具有较强的单图像理解能力，但缺乏理解多图像的能力。因此，它们不能直接应用于应对图像变化理解ICU，这需要模型捕获多个图像之间的实际变化并用语言描述它们。在本文中，我们发现现有的 VLFM 在直接应用于 ICU 时表现不佳，原因如下： 1 VLFM 通常学习单个图像的全局表示，而 ICU 需要捕获多个图像之间的细微差别。 2 VLFM 的 ICU 性能受到视点变化的显着影响，这是由于视点变化时对象之间的关系发生变化而引起的。为了解决这些问题，我们提出了一种视点集成和注册方法。具体来说，我们引入了一种融合适配器图像编码器，它通过插入设计的可训练适配器和融合适配器来微调预训练编码器，以有效捕获图像对之间的细微差别。此外，还设计了视点注册流程和语义强调模块，以分别减少视觉和语义空间中视点变化引起的性能下降。

The Impact of Different Backbone Architecture on Autonomous Vehicle Dataset
Authors Ning Ding, Azim Eskandarian
物体检测是自动驾驶的重要组成部分，并且已经开发了许多检测应用程序来解决此任务。这些应用程序通常依赖于主干架构，该架构从输入中提取表示特征以执行对象检测任务。主干架构提取的特征的质量会对整体检测性能产生重大影响。许多研究人员致力于开发新的和改进的主干架构，以提高对象检测应用的效率和准确性。虽然这些骨干架构在 MS COCO 和 PASCAL VOC 等通用对象检测数据集上表现出了最先进的性能，但之前尚未探索过在自动驾驶环境下评估它们的性能。

Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model
Authors Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro
本文提出了一种强大的视觉语音识别 VSR 方法，适用于多种语言，特别是对于标记数据数量有限的低资源语言。与之前试图利用从其他语言学到的知识来提高目标语言的 VSR 性能的方法不同，我们探索是否可以在没有人工干预的情况下增加不同语言的训练数据量本身。为此，我们采用了 Whisper 模型，它可以进行语言识别和基于音频的语音识别。它用于过滤所需语言的数据，并从未注释的多语言视听数据池中转录标签。通过比较在自动标签和人工注释标签上训练的 VSR 模型的性能，我们表明，即使不使用人工注释，我们也可以实现与人工注释标签相似的 VSR 性能。通过自动化标记流程，我们标记了大型未标记多语言数据库 VoxCeleb2 和 AVSpeech，为四种低 VSR 资源语言（法语、意大利语、西班牙语和葡萄牙语）生成了 1,002 小时的数据。借助自动标签，我们在 mTEDx 上以四种语言实现了最先进的性能，显着超越了以前的方法。

Automated dermatoscopic pattern discovery by clustering neural network output for human-computer interaction
Authors Lidia Talavera Martinez, Philipp Tschandl
背景随着可用的医学图像数据集大小的增加，临床医生手动审查内容以提取知识变得不可行。

Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens
Authors Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, Yong Man Ro
在本文中，我们提出了构建强大且高效的图像到语音字幕 Im2Sp 模型的方法。为此，我们首先将大规模预训练视觉语言模型中与图像理解和语言建模相关的丰富知识导入到 Im2Sp 中。我们将所提出的 Im2Sp 的输出设置为离散语音单元，即自监督语音模型的量化语音特征。语音单元主要包含语言信息，同时抑制语音的其他特征。这使得我们能够将预训练的视觉语言模型的语言建模能力合并到 Im2Sp 的口语建模中。通过视觉语言预训练策略，我们在两个广泛使用的基准数据库 COCO 和 Flickr8k 上设置了最先进的 Im2Sp 性能。然后，我们进一步提高了 Im2Sp 模型的效率。与语音单元的情况类似，我们将原始图像转换为图像单元，这些图像单元是通过原始图像的矢量量化得出的。通过这些图像单元，与原始图像数据相比，我们可以将保存图像数据所需的数据存储量大幅减少至 0.8 位。

Breathing New Life into 3D Assets with Generative Repainting
Authors Tianfu Wang, Menelaos Kanakis, Konrad Schindler, Luc Van Gool, Anton Obukhov
基于扩散的文本到图像模型引起了视觉社区、艺术家和内容创作者的极大关注。这些模型的广泛采用是由于生成质量的显着提高以及对各种模式（而不仅仅是文本）的有效调节。然而，将这些 2D 模型的丰富生成先验提升到 3D 具有挑战性。最近的工作提出了由扩散模型和神经场的纠缠驱动的各种管道。我们探索预训练 2D 扩散模型和标准 3D 神经辐射场作为独立工具的强大功能，并展示它们以非学习方式协同工作的能力。这种模块化具有易于部分升级的内在优势，这成为如此快节奏的领域的一个重要属性。我们的管道接受任何传统的可渲染几何体，例如纹理或无纹理网格，协调 2D 生成细化和 3D 一致性强制工具之间的交互，并以多种格式输出绘制的输入几何体。我们对 ShapeNetSem 数据集中的各种对象和类别进行了大规模研究，并在定性和定量方面展示了我们的方法的优势。

SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels
Authors Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou
预训练的视觉转换器对各种下游任务具有很强的代表性。最近，人们提出了许多参数有效的微调PEFT方法，他们的实验表明，在低数据资源场景下，仅调整1个额外参数就可以超越完全微调。然而，这些方法在微调不同下游任务时忽略了任务特定信息。在本文中，我们提出了一种简单而有效的方法，称为显着通道调整 SCT，通过将模型与任务图像一起转发来选择特征图中的部分通道，从而利用任务特定信息，这使我们能够仅调整 1-8 个通道，从而显着提高更低的参数成本。通过仅添加 ViT B 的 0.11M 参数，实验在 VTAB 1K 基准测试中的 19 个任务中的 18 个上优于完全微调，这比完全微调对应的参数少了 780 倍。

YCB-Ev: Event-vision dataset for 6DoF object pose estimation
Authors Pavel Rojtberg, Thomas P llabauer

3D Arterial Segmentation via Single 2D Projections and Depth Supervision in Contrast-Enhanced CT Images
Authors Alina F. Dima, Veronika A. Zimmer, Martin J. Menten, Hongwei Bran Li, Markus Graf, Tristan Lemke, Philipp Raffler, Robert Graf, Jan S. Kirschke, Rickmer Braren, Daniel Rueckert
3D 体积中血管的自动分割是许多血管疾病定量诊断和治疗的重要步骤。现有工作正在积极研究 3D 血管分割，主要是深度学习方法。然而，训练 3D 深度网络需要专家进行大量的手动 3D 注释，而这些注释很难获得。 3D 血管分割尤其如此，因为血管稀疏但分布在许多切片上，并且在 2D 切片中可视化时会断开连接。在这项工作中，我们提出了一种新颖的方法，仅通过深度监督的每个训练图像的一个带注释的 2D 投影来分割 3D 胰周动脉。我们对 3D 对比增强 CT 图像上的胰周动脉分割进行了广泛的实验，并展示了我们如何很好地从 2D 投影中捕获丰富的深度信息。我们证明，通过为每个训练样本注释单个随机选择的投影，我们获得了与注释多个 2D 投影相当的性能，从而减少了注释工作。此外，通过使用深度信息将 2D 标签映射到 3D 空间并将其纳入训练中，我们几乎缩小了 3D 监督和 2D 监督之间的性能差距。

PoseFix: Correcting 3D Human Poses with Natural Language
Authors Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno Noguer, Gr gory Rogez
自动生成改变姿势的指令可以为无限的应用打开大门，例如个性化指导和家庭物理治疗。解决相反的问题，即根据一些自然语言反馈改进 3D 姿势，可以有助于辅助 3D 角色动画或机器人教学等。尽管最近的一些作品探索了自然语言和 3D 人体姿势之间的联系，但没有一个专注于描述 3D 身体姿势差异。在本文中，我们解决了使用自然语言纠正 3D 人体姿势的问题。为此，我们引入了 PoseFix 数据集，它由数千个配对的 3D 姿势及其相应的文本反馈组成，描述了需要如何修改源姿势以获得目标姿势。我们展示了该数据集在两项任务上的潜力：1. 基于文本的姿势编辑，旨在根据给定的查询姿势和文本修改器生成校正的 3D 身体姿势；2. 校正文本生成，其中根据两个身体姿势之间的差异生成指令

TreeLearn: A Comprehensive Deep Learning Method for Segmenting Individual Trees from Forest Point Clouds
Authors Jonathan Henrich, Jan van Delden, Dominik Seidel, Thomas Kneib, Alexander Ecker
激光扫描森林点云可以提取有价值的森林管理信息。为了考虑单棵树，需要将森林点云分割成单独的树点云。现有的分割方法通常基于手工算法，例如识别树干并从中生长树木，并且在树冠重叠的茂密森林中面临困难。在这项研究中，我们提出了 mbox TreeLearn，这是一种基于深度学习的方法，用于森林点云的语义和实例分割。与以前的方法不同，TreeLearn 以数据驱动的方式在已经分割的点云上进行训练，从而减少对预定义特征和算法的依赖。此外，我们引入了一个新的手动分割基准森林数据集，其中包含 156 棵完整树木和 79 棵部分树木，这些树木已被手动清晰分割。这使得实例分割性能的评估不仅仅是评估单个树的检测。我们在 6665 棵树的森林点云上训练了 TreeLearn，并使用 Lidar360 软件进行了标记。对基准数据集的评估表明，TreeLearn 的性能与用于生成训练数据的算法相同或更好。此外，通过对清晰标记的基准数据集进行微调，可以极大地提高该方法的性能。

Toward responsible face datasets: modeling the distribution of a disentangled latent space for sampling face images from demographic groups
Authors Parsa Rahimi, Christophe Ecabert, Sebastien Marcel
最近，有消息称，一些现代面部识别系统可能会歧视特定的人口群体，并可能导致对性别和出身等各种面部属性的不公平关注。主要原因是用于训练这些模型的数据集内部的偏差、人口统计数据的不平衡。

X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction
Authors Duc Cao Dinh, J Lim
从单个 RGB 图像中分割平面区域是复杂场景感知中一项特别重要的任务。为了利用图像中的视觉和几何属性，最近的方法通常通过特征融合机制和几何约束损失将问题表述为平面实例和密集深度的联合估计。尽管结果很有希望，但这些方法没有考虑跨任务特征蒸馏，并且在边界区域表现不佳。为了克服这些限制，我们提出了 X PDNet，一个用于平面实例分割和深度估计的多任务学习的框架，并在以下两个方面进行了改进。首先，我们构建了跨任务蒸馏设计，促进双任务之间的早期信息共享，以实现特定任务的改进。其次，我们强调了当前使用地面真实边界来开发边界回归损失的局限性，并提出了一种利用深度信息来支持精确边界区域分割的新方法。最后，我们手动注释了斯坦福 2D 3D 语义数据集中的 3000 多张图像，并可用于平面实例分割的评估。

Deformable Neural Radiance Fields using RGB and Event Cameras
Authors Qi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool
仅根据视觉数据对快速移动的可变形物体进行神经辐射场建模是一个具有挑战性的问题。由于高变形和低采集率出现了一个主要问题。为了解决这个问题，我们建议使用事件相机，它能够以异步方式非常快速地获取视觉变化。在这项工作中，我们开发了一种使用 RGB 和事件相机对可变形神经辐射场进行建模的新颖方法。所提出的方法使用异步事件流和校准的稀疏 RGB 帧。在我们的设置中，相机在将它们集成到辐射场所需的各个事件中的姿势仍然未知。我们的方法联合优化这些姿势和辐射场。通过立即利用事件集合并在学习过程中主动采样事件，可以有效地实现这一点。

Double Domain Guided Real-Time Low-Light Image Enhancement for Ultra-High-Definition Transportation Surveillance
Authors Jingxiang Qu, Ryan Wen Liu, Yuan Gao, Yu Guo, Fenghua Zhu, Fei yue Wang
实时交通监控是智能交通系统ITS的重要组成部分。然而，在弱光条件下捕获的图像往往会出现可视性较差的情况，并出现各种退化，例如噪声干扰和边缘特征模糊等。随着成像设备的发展，视觉监控数据的质量不断提高，如2K和4K，对图像处理的效率有更严格的要求。为了满足增强质量和计算速度的要求，本文提出了一种用于超高清UHD交通监控的双域引导实时微光图像增强网络DDNet。具体来说，我们设计了一个编码器解码器结构作为学习网络的主要架构。特别是，通过嵌入编码器解码器结构中的粗略增强模块 CEM 和基于 LoG 的梯度增强模块 GEM 将增强处理分为两个子任务，即颜色增强和梯度增强。它使网络能够同时增强颜色和边缘特征。通过颜色域和梯度域的分解和重构，我们的DDNet可以以更好的视觉质量和效率恢复黑暗中隐藏的详细特征信息。对标准和交通相关数据集的评估实验表明，与最先进的方法相比，我们的 DDNet 提供了卓越的增强质量和效率。

PatFig: Generating Short and Long Captions for Patent Figures
Authors Dana Aubakirova, Kim Gerdes, Lufei Liu
本文介绍了 Qatent PatFig，这是一个新颖的大规模专利数据集，包含来自 11,000 多个欧洲专利申请的 30,000 个专利数据。对于每个图，该数据集提供了短标题和长标题、参考数字、它们对应的术语以及描述图像组件之间相互作用的最小权利要求集。

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval
Authors Kejun Lin, Zhixiang Wang, Zheng Wang, Yinqiang Zheng, Shin ichi Satoh
人员再识别re ID需要密集分布的摄像头。在实践中，感兴趣的人可能不会被摄像机捕捉到，因此需要使用主观信息（例如目击者的草图）来检索。先前的研究将这种使用草图的情况定义为草图重新识别草图重新ID，并侧重于消除域间隙。事实上，主观性是另一个重大挑战。我们通过提供具有多证人描述的新数据集来对其进行建模和研究。它有两个方面的特点。 1 规模大。它包含超过 4,763 个草图和 32,668 张照片，使其成为最大的 Sketch re ID 数据集。 2 多视角、多风格。我们的数据集为每个身份提供多个草图。目击者的主观认知提供了对同一个人的多种视角，而不同艺术家的绘画风格提供了素描风格的差异。我们还有两种新颖的设计来减轻主观性的挑战。 1 融合主观性。我们提出了一个非本地 NL 融合模块，该模块收集不同目击者对同一身份的草图。 2 引入客观性。 AttrAlign 模块利用属性作为隐式掩码来对齐跨域特征。为了推动Sketch re ID的进步，我们设定了大规模、多风格、跨风格三个基准。大量的实验证明了我们在这些基准测试中的领先性能。

An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single Camera
Authors Zhupeng Ye, Yinqi Li, Zejian Yuan
宽范围和细粒度的车辆检测对于在智能驾驶系统中实现主动安全功能起着至关重要的作用。然而，现有的基于矩形边界框 BBox 的车辆检测方法常常难以感知大范围的物体，尤其是长距离的小物体。而且BBox表达式无法提供车辆详细的几何形状和位姿信息。本文提出了一种基于单摄像头图像的新型宽范围伪 3D 车辆检测方法，并结合了高效的学习方法。该模型以拼接图像作为输入，该拼接图像是通过组合高分辨率图像中的两个子窗口图像而获得的。这种图像格式最大限度地利用有限的图像分辨率来保留有关各种车辆对象的基本信息。为了检测伪 3D 物体，我们的模型采用了专门设计的检测头。这些头同时输出扩展的 BBox 和侧投影线 SPL 表示，捕获车辆的形状和姿态，从而实现高精度检测。为了进一步增强检测性能，模型训练时设计了结合目标框和SPL的联合约束损失，提高了模型的效率、稳定性和预测精度。我们自建数据集上的实验结果表明，我们的模型在跨多个评估指标的大范围伪 3D 车辆检测中取得了良好的性能。

Robust Burned Area Delineation through Multitask Learning
Authors Edoardo Arnaudo, Luca Barco, Matteo Merlo, Claudio Rossi
近年来，野火由于其频率和严重程度不断增加而构成了重大挑战。因此，准确划定过火区域对于环境监测和火灾后评估至关重要。然而，由于资源有限以及分割任务固有的不平衡性，依赖二元分割模型的传统方法通常很难获得稳健且准确的结果，尤其是从头开始训练时。我们建议通过两种方式解决这些限制，首先，我们构建一个临时数据集来应对有限的资源，将 Sentinel 2 源的信息与哥白尼激活和其他数据源相结合。在此数据集中，我们为多个任务提供注释，包括烧毁区域划分和土地覆盖分割。其次，我们提出了一个多任务学习框架，将土地覆盖分类作为辅助任务，以增强烧毁区域分割模型的鲁棒性和性能。

M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient Object Detection
Authors Yao Yuan, Pan Gao, XiaoYang Tan
现有的显着目标检测方法大多采用U Net或特征金字塔结构，简单地聚合不同尺度的特征图，忽略了它们的唯一性和相互依赖性以及它们各自对最终预测的贡献。为了克服这些问题，我们提出了 M 3 Net，即用于显着对象检测 SOD 的多级、混合和多级注意网络。首先，我们提出多尺度交互块，创新性地引入交叉注意方法来实现多级特征之间的交互，允许高级特征指导低级特征学习，从而增强显着区域。其次，考虑到之前基于 Transformer 的 SOD 方法仅使用全局自注意力来定位显着区域，而不可避免地忽略了复杂对象的细节，我们提出了混合注意力块。该模块结合了全局自注意力和窗口自注意力，旨在对全局和局部级别的上下文进行建模，以进一步提高预测图的准确性。最后，我们提出了一种多级监督策略来逐步优化聚合特征。对六个具有挑战性的数据集的实验表明，所提出的 M 3 Net 在四个指标方面超越了最近的基于 CNN 和 Transformer 的 SOD 技术。

Continual Learning with Deep Streaming Regularized Discriminant Analysis
Authors Joe Khawand, Peter Hanappe, David Colliaux
持续学习在现实世界的机器学习应用中越来越受追捧，因为它使学习能够以更人性化的方式进行。传统的机器学习方法无法实现这一点，因为使用非同分布的数据增量更新模型会导致灾难性遗忘，现有表示被覆盖。尽管传统的持续学习方法主要集中于批量学习，涉及从大量标记数据中顺序学习，但这种方法不太适合我们希望直接集成新数据的现实世界应用。这需要向流式学习进行范式转变。在本文中，我们提出了正则化判别分析的流式版本作为这一挑战的解决方案。

T-UDA: Temporal Unsupervised Domain Adaptation in Sequential Point Clouds
Authors Awet Haileslassie Gebrehiwot, David Hurych, Karel Zimmermann, Patrick P rez, Tom Svoboda
深度感知模型必须可靠地应对由不同地理区域、传感器属性、安装位置和其他几个原因引起的域转移的开放世界环境。由于可能存在无穷无尽的变化，用带注释的数据覆盖所有领域在技术上是棘手的，因此研究人员专注于无监督的领域适应 UDA 方法，该方法将在一个源域上训练的模型与可用于另一个目标域的可用注释相适应，而对于另一个目标域来说，只有未注释的数据可用。当前的主要方法要么利用半监督方法，例如教师学生设置，要么利用特权数据，例如其他传感器模式或时间数据一致性。我们引入了一种新颖的领域适应方法，该方法充分利用了这两种趋势的优点。我们的方法将输入数据的时间和跨传感器几何一致性与平均教师方法结合起来。这种组合被称为时间 UDA 的 T UDA，为驾驶场景的 3D 语义分割任务带来了巨大的性能提升。在 Waymo 开放数据集 nuScenes 和 SemanticKITTI 上针对两种流行的 3D 点云架构 Cylinder3D 和 MinkowskiNet 进行了实验。

Large Intestine 3D Shape Refinement Using Point Diffusion Models for Digital Phantom Generation
Authors Kaouther Mouheb, Mobina Ghojogh Nejad, Lavsen Dahal, Ehsan Samei, W. Paul Segars, Joseph Y. Lo
人体器官的精确 3D 建模在构建用于虚拟成像试验的计算模型方面发挥着至关重要的作用。然而，对于人体的许多结构来说，通过计算机断层扫描生成器官表面的解剖学上合理的重建仍然具有挑战性。在处理大肠时，这一挑战尤其明显。在这项研究中，我们利用几何深度学习和去噪扩散概率模型的最新进展来细化大肠的分割结果。我们首先将器官表示为从 3D 分割掩模表面采样的点云。随后，我们采用分层变分自动编码器来获得器官形状的全局和局部潜在表示。我们在分层潜在空间中训练两个条件去噪扩散模型来执行形状细化。为了进一步增强我们的方法，我们采用了最先进的表面重建模型，使我们能够从获得的完整点云生成平滑的网格。实验结果证明了我们的方法在捕捉器官形状的全局分布及其细节方面的有效性。与初始分割相比，我们完整的细化流程展示了表面表示的显着增强，将倒角距离减少了 70 ，豪斯多夫距离减少了 32 ，地球移动器距离减少了 6 。

Unsupervised Disentangling of Facial Representations with 3D-aware Latent Diffusion Models
Authors Ruian He, Zhen Xing, Weimin Tan, Bo Yan
面部表征的无监督学习在不严重依赖大规模注释数据集的情况下，因其面部理解能力而受到越来越多的关注。然而，由于面部身份、表情以及姿势和光线等外部因素的耦合，该问题仍未得到解决。先前的方法主要关注 2D 因素和像素级一致性，导致下游任务中的解缠不完整和性能次优。在本文中，我们提出了 LatentFace，一种用于面部表情和身份表示的新型无监督解缠框架。我们建议解开问题应在潜在空间中执行，并提出使用 3D ware 潜在扩散模型的解决方案。首先，我们引入 3D 感知自动编码器将人脸图像编码为 3D 潜在嵌入。其次，我们提出了一种新颖的表示扩散模型 RDM，将 3D 潜在特征分解为面部身份和表情。

Edge Based Oriented Object Detection
Authors Jianghu Shen, Xiaojun Wu
在遥感领域，我们经常利用定向包围盒OBB来约束物体。这种方法显着减少了密集检测框之间的重叠，并最大限度地减少了边界框内背景内容的包含。为了提高定向对象的检测精度，受模板匹配任务中使用的相似性测量函数的启发，我们提出了一种基于边缘梯度的独特损失函数。在此过程中，我们解决了函数的不可微性问题以及地面真值 GT 框和预测框 PB 中梯度向量之间的语义对齐问题。实验结果表明，与基线算法中常用的 Smooth L1 损失相比，我们提出的损失函数实现了 0.6 mAP 的改进。此外，我们设计了一个基于边缘的自注意力模块，以鼓励检测网络更多地关注对象边缘。

Leveraging the Power of Data Augmentation for Transformer-based Tracking
Authors Jie Zhao, Johan Edstedt, Michael Felsberg, Dong Wang, Huchuan Lu
由于长距离相关性和强大的预训练模型，基于 Transformer 的方法在视觉对象跟踪性能方面取得了突破。以前的工作重点是设计适合跟踪的有效架构，但忽略了数据增强对于训练性能良好的模型同样重要。在本文中，我们首先通过系统实验探讨一般数据增强对基于变压器的跟踪器的影响，并揭示这些常见策略的有限有效性。在实验观察的推动下，我们提出了两种为跟踪定制的数据增强方法。首先，我们通过动态搜索半径机制和边界样本模拟来优化现有的随机裁剪。其次，我们提出了一种令牌级特征混合增强策略，该策略使模型能够应对背景干扰等挑战。

BROW: Better featuRes fOr Whole slide image based on self-distillation
Authors Yuanfeng Wu, Shaojie Li, Zhiqiang Du, Wentao Zhu
整个幻灯片图像 WSI 处理正在成为各种疾病标准临床诊断的关键组成部分。然而，由于WSI独特的超高分辨率特性，传统图像处理算法直接应用于WSI面临一定的障碍。大多数 WSI 相关任务的性能依赖于提取 WSI 补丁特征表示的主干网的效率。因此，我们提出了 BROW，一种为 WSI 提取更好的特征表示的基础模型，它可以方便地适应下游任务，无需或稍加微调。该模型采用变压器架构，使用自蒸馏框架进行预训练。为了提高模型的鲁棒性，采用了补丁洗牌等技术。此外，该模型利用 WSI 的独特属性，利用 WSI 的多尺度金字塔纳入额外的全局视图，从而进一步提高其性能。我们使用私人和公共数据组成了一个大型预训练数据集，包含超过 11000 张幻灯片、超过 1.8 亿个提取的补丁，涵盖与各种器官和组织相关的 WSI。为了评估我们模型的有效性，我们运行了广泛的下游任务，包括幻灯片级别子类型、补丁级别分类和核实例分割。结果证实了该模型的有效性、鲁棒性和良好的泛化能力。

Cartoondiff: Training-free Cartoon Image Generation with Diffusion Transformer Models
Authors Feihong He, Gang Li, Lingyu Si, Leilei Yan, Shimeng Hou, Hongwei Dong, Fanzhang Li
图像卡通化引起了图像生成领域的极大兴趣。然而，大多数现有的图像卡通化技术需要使用卡通风格的图像重新训练模型。在本文中，我们提出了CartoonDiff，这是一种新颖的免训练采样方法，它使用扩散变换器模型生成图像卡通化。具体来说，我们将扩散模型的逆过程分解为语义生成阶段和细节生成阶段。此外，我们通过在特定的去噪步骤中对噪声图像的高频信号进行归一化来实现图像卡通化过程。 CartoonDiff 不需要任何额外的参考图像、复杂的模型设计或多个参数的繁琐调整。大量的实验结果显示了我们的CartoonDiff的强大能力。

Optimization of Rank Losses for Image Retrieval
Authors Elias Ramzi, Nicolas Audebert, Cl ment Rambour, Andr Araujo, Xavier Bitot, Nicolas Thome
在图像检索中，标准评估指标依赖于分数排序，例如平均精度 AP 、k R k 召回率、归一化贴现累积增益 NDCG 。在这项工作中，我们介绍了一个稳健且可分解的排名损失优化的通用框架。它解决了具有秩损失不可微性和不可分解性的深度神经网络端到端训练的两个主要挑战。首先，我们提出了排序算子的通用替代方案 SupRank，它适用于随机梯度下降。它提供了排名损失的上限并确保稳健的训练。其次，我们使用简单而有效的损失函数来减少排名损失的平均批次近似与其在整个训练集上的值之间的可分解性差距。我们将我们的框架应用于图像检索 AP 和 R k 的两个标准指标。此外，我们将我们的框架应用于分层图像检索。我们引入了 AP 的扩展，即分层平均精度数学 H AP，并对其以及 NDCG 进行了优化。最后，我们创建第一个分层地标检索数据集。我们使用半自动管道来创建分层标签，扩展大规模 Google Landmarks v2 数据集。

A Real-time Faint Space Debris Detector With Learning-based LCM
Authors Zherui Lu, Gangyi Wang, Xinguo Wei, Jian Li
随着航天技术的发展，空间碎片数量不断增加，对航天器的安全构成了巨大威胁。然而，反射光的低强度和空间碎片的高角速度阻碍了提取。此外，由于地面观测手段的限制，微小的空间碎片很难被探测到，因此有必要增强航天器的空间态势感知SSA能力。考虑到传统方法在低信噪比目标检测中存在有效性低、耗时大等缺陷，提出一种基于局部对比度和最大似然估计MLE的低信噪比条纹提取方法，可检测信噪比为2.0的空间目标有效率的。在该算法中，将应用局部对比进行粗分类，将连通分量作为初步结果返回，然后进行MLE，通过定向增长来重建目标的连通分量，进一步提高精度。该算法已经通过模拟条纹和真实星跟踪器图像进行了验证，并且该算法的平均质心误差接近于ODCC等最先进的方法。同时本文算法与ODCC相比在效率上具有显着优势。

Human-Inspired Topological Representations for Visual Object Recognition in Unseen Environments
Authors Ekta U. Samani, Ashis G. Banerjee
对于移动机器人来说，在看不见和杂乱的室内环境中进行视觉目标识别是一个具有挑战性的问题。为了实现这一目标，我们扩展了之前的工作，提出了 TOPS2 描述符以及随附的识别框架 THOR2，其灵感来自于称为对象统一的人类推理机制。我们将使用用于拓扑软聚类的 Mapper 算法获得的颜色嵌入与基于形状的 TOPS 描述符交织以获得 TOPS2 描述符。 THOR2 使用合成数据进行训练，比基于形状的 THOR 框架实现了更高的识别精度，并且在两个现实世界数据集（基准 OCID 数据集和 UW IS Occlusion 数据集）上优于 RGB D ViT。

Salient Object Detection in Optical Remote Sensing Images Driven by Transformer
Authors Gongyang Li, Zhen Bai, Zhi Liu, Xinpeng Zhang, Haibin Ling
现有的光学遥感图像ORSI SOD中显着目标检测的方法主要采用卷积神经网络CNN作为主干，例如VGG和ResNet。由于 CNN 只能提取某些感受野内的特征，因此大多数 ORSI SOD 方法通常遵循局部到上下文范式。在本文中，我们遵循全局到局部范式，为 ORSI SOD 提出了一种新颖的全局提取局部探索网络 GeleNet。具体来说，GeleNet 首先采用 Transformer 主干来生成具有全局长程依赖性的四级特征嵌入。然后，GeleNet 采用方向感知随机加权空间注意力模块 D SWSAM 及其简化版本 SWSAM 来增强局部交互，并采用知识转移模块 KTM 来进一步增强跨级别上下文交互。 D SWSAM通过方向卷积全面感知最低层特征中的方向信息，以适应ORSI中显着对象的各种方向，并通过改进的注意力机制有效增强显着对象的细节。 SWSAM 放弃了 D SWSAM 的方向感知部分，专注于定位最高级别特征中的显着对象。 KTM基于自注意力机制对两个不同尺度的中级特征的上下文相关知识进行建模，并将知识转移到原始特征中以生成更具判别性的特征。最后，使用显着性预测器根据上述三个模块的输出生成显着性图。对三个公共数据集的广泛实验表明，所提出的 GeleNet 优于相关的最先进方法。

One-stage Modality Distillation for Incomplete Multimodal Learning
Authors Shicai Wei, Yang Luo, Chunbo Luo
基于多模态数据的学习最近引起了越来越多的兴趣。虽然可以收集各种感官模态用于训练，但并非所有感官模态都始终在开发场景中可用，这给推断不完整模态带来了挑战。为了解决这个问题，本文提出了一种单阶段模态蒸馏框架，该框架通过多任务学习将特权知识转移和模态信息融合统一到单个优化过程中。与独立执行它们的传统模态蒸馏相比，这有助于捕获可以直接协助最终模型推理的有价值的表示。具体来说，我们提出了用于模态传输任务的联合适应网络来保留特权信息。这通过联合分布自适应解决了由输入差异引起的表示异质性。然后，我们引入用于模态融合任务的交叉翻译网络来聚合恢复的和可用的模态特征。它利用参数共享策略来明确捕获跨模式线索。

ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection
Authors Zhimeng Xin, Tianxu Wu, Shiming Chen, Yixiong Zou, Ling Shao, Xinge You
很少的镜头对象检测 FSOD 从极少数带注释的样本中识别对象。最近，大多数现有的 FSOD 方法都应用两阶段学习范式，它将从丰富的基类中学到的知识转移到通过学习全局特征来辅助少数镜头检测器。然而，现有的 FSOD 方法很少考虑对象从局部到全局的定位。受FSOD训练数据稀缺的限制，新类的训练样本通常会捕获部分对象，导致此类FSOD方法在测试过程中无法检测到完全不可见的对象。为了解决这个问题，我们提出了一个可扩展共存注意力 ECEA 模块，使模型能够根据局部部分推断全局对象。本质上，所提出的模块不断学习具有丰富样本的基础阶段的可扩展能力，并将其转移到新阶段，这可以帮助少数镜头模型快速适应将局部区域扩展到共存区域。具体来说，我们首先设计一种可扩展的注意力机制，该机制从局部区域开始，并将注意力扩展到与给定局部区域相似且相邻的共存区域。然后，我们在不同的特征尺度上实现可扩展的注意力机制，以逐步发现不同感受野中的完整对象。

STDG: Semi-Teacher-Student Training Paradigram for Depth-guided One-stage Scene Graph Generation
Authors Xukun Zhou, Zhenbo Song, Jun He, Hongyan Liu, Zhaoxin Fan
场景图生成是自主机器人系统环境理解的关键推动者。然而，大多数现有方法常常受到背景复杂性的复杂动态的阻碍，这限制了它们完全解码环境固有拓扑信息的能力。此外，深度线索中封装的大量上下文信息通常未被开发，导致现有方法效率较低。为了解决这些缺点，我们提出了 STDG，一种前卫的深度引导单阶段场景图生成方法。 STDG 的创新架构是三个定制模块：深度引导 HHA 表示生成模块、深度引导半教学网络学习模块和深度引导场景图生成模块。这三个模块协同利用深度信息，涵盖从深度信号生成和深度特征利用到最终场景图预测的各个方面。重要的是，这是在推理阶段没有施加额外计算负担的情况下实现的。

Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval
Authors Rui Deng, Qian Wu, Yuke Li, Haoran Fu
随着各领域对视频分析需求的不断增长，优化视频推理效率变得越来越重要。一些现有方法通过显式丢弃空间或时间信息来实现高效率，这在快速变化和细粒度的场景中提出了挑战。为了解决这些问题，我们提出了一种具有可微分分辨率压缩和对齐机制的高效视频表示网络，该网络在网络的早期阶段压缩非必要信息，以降低计算成本，同时保持一致的时间相关性。具体来说，我们利用可微上下文感知压缩模块对显着性和非显着性帧特征进行编码，将这些特征细化和更新为高低分辨率视频序列。为了处理新序列，我们引入了一个新的分辨率对齐变换器层来捕获不同分辨率的帧特征之间的全局时间相关性，同时通过在低分辨率非显着性帧中利用更少的空间标记来二次降低空间计算成本。整个网络可以通过集成可微压缩模块进行端到端优化。实验结果表明，与最先进的方法相比，我们的方法在近重复视频检索的效率和性能以及动态视频分类的竞争结果之间实现了最佳权衡。

A Ground Segmentation Method Based on Point Cloud Map for Unstructured Roads
Authors Zixuan Li, Haiying Lin, Zhangyu Wang, Huazhi Li, Miao Yu, Jie Wang
地面分割作为无人智能感知的基础任务，为目标检测任务提供了重要支撑。以露天矿为代表的非结构化道路场景，边界线不规则，路面凹凸不平，导致现有地面分割方法存在分割误差。针对这一问题，提出一种基于点云图的地面分割方法，该方法包括兴趣区域提取、点云配准和背景减除三部分。首先，建立边界语义关联以获得非结构化道路中的兴趣区域。其次，通过语义信息建立点云地图与感兴趣区域实时点云之间的位置关联。再次，根据位置关联建立基于高斯分布的背景模型，并通过背景减法方法对实时点云中的地面进行分割。实验结果表明，地面点分割正确率为99.95，运行时间为26ms。与最先进的地面分割算法 Patchwork 相比，地面点分割的平均精度提高了 7.43，运行时间提高了 17ms。

AdSEE: Investigating the Impact of Image Style Editing on Advertisement Attractiveness
Authors Liyao Jiang, Chenglin Li, Haolan Chen, Xiaodong Gao, Xinwang Zhong, Yang Qiu, Shani Ye, Di Niu
在线广告是电子商务网站、社交媒体平台和搜索引擎的重要元素。随着移动浏览的日益普及，许多在线广告除了文字描述之外，还以封面图像的形式显示视觉信息，以吸引用户的注意力。最近的各种研究都集中在预测了解视觉特征的在线广告的点击率或组成最佳广告元素以提高可见性。在本文中，我们提出了广告风格编辑和吸引力增强AdSEE，探索对广告图像的语义编辑是否会影响或改变在线广告的受欢迎程度。我们将基于 StyleGAN 的面部语义编辑和反演引入到广告图像中，并训练点击率预测器，将基于 GAN 的面部潜在表示以及传统的视觉和文本特征归因于点击率。通过一个名为 QQ AD 的大型数据集（包含 20,527 个在线广告），我们进行了广泛的离线测试，以研究不同的语义方向及其编辑系数如何影响点击率。我们进一步设计了一个遗传广告编辑器，可以在给定输入广告封面图像的情况下有效搜索最佳编辑方向和强度，以提高其预计点击率。为期 5 天的在线 A B 测试验证了 AdSEE 编辑后的样本与原始广告对照组相比点击率有所提高，验证了图像风格与广告流行度之间的关系。

Uncertainty-Aware Multi-View Visual Semantic Embedding
Authors Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Xingguang Wang, Huayi Wu
图像文本检索的关键挑战是有效利用语义信息来测量视觉和语言数据之间的相似性。然而，使用实例级二进制标签（其中每个图像与单个文本配对）无法捕获不同语义单元之间的多个对应关系，导致多模态语义理解的不确定性。尽管最近的研究通过更复杂的模型结构或预训练技术捕获了细粒度的信息，但很少有研究直接对对应的不确定性进行建模以充分利用二进制标签。为了解决这个问题，我们提出了一种不确定性感知多视图视觉语义嵌入 UAMVSE 框架，该框架将整体图像文本匹配分解为多个视图文本匹配。我们的框架引入了不确定性感知损失函数 UALoss，通过自适应地建模每个视图文本对应中的不确定性来计算每个视图文本损失的权重。不同的权重引导模型关注不同的语义信息，增强模型理解图像和文本对应关系的能力。我们还通过标准化相似度矩阵来设计优化的图像文本匹配策略，以提高模型性能。

DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions
Authors Minsik Jeon, Junwon Seo, Jihong Min
尽管近年来基于深度学习的目标检测方法取得了成功，但要使目标检测器在雨雪等恶劣天气条件下可靠仍然具有挑战性。为了实现物体检测器的鲁棒性能，无监督域适应已被用来使在清晰天气图像上训练的检测网络适应恶劣天气图像。虽然以前的方法没有明确解决适应过程中的天气损坏问题，但晴天和恶劣天气之间的域差距可以分解为两个具有不同特征的因素：风格差距和天气差距。在本文中，我们提出了一种用于对象检测的无监督域适应框架，通过分别解决这两个差距，可以更有效地适应具有恶劣天气条件的现实世界环境。我们的方法通过使用注意模块集中于高级特征的风格相关信息来解决风格差距。使用自我监督对比学习，我们的框架可以减少天气差距并获得对天气损坏具有鲁棒性的实例特征。

Multi-Scale Estimation for Omni-Directional Saliency Maps Using Learnable Equator Bias
Authors Takao Yamanaka, Tatsuya Suzuki, Taiki Nobutsune, Chenjunlin Wu
全向图像已被广泛应用。对于应用来说，使用头戴式显示器估计表示注视点概率分布的显着图以检测全向图像中的重要区域将很有用。本文通过从不同方向和视角的全向图像中提取重叠的二维二维平面图像，提出了一种新颖的全向图像显着图估计模型。虽然2D显着图往往在图像中心偏差的中心具有高概率，但当头戴式显示器使用赤道偏差时，高概率区域出现在全向显着图的水平方向上。因此，通过将中心偏置层替换为以仰角为条件的赤道偏置层，以提取 2D 平面图像，对具有中心偏置层的 2D 显着性模型进行了全向数据集的微调。显着性数据集中全向图像的有限可用性可以通过使用完善的 2D 显着性模型来补偿，该模型由大量具有 2D 显着性图的基本事实的训练图像进行预训练。此外，本文提出了一种多尺度估计方法，通过提取多个视角的2D图像来检测具有可变感受野的各种尺寸的物体。通过使用在集成层中计算的像素级注意权重来集成从多个视角估计的显着性图，以对每个对象的最佳尺度进行加权。使用具有全向显着图评估指标的公开数据集对所提出的方法进行了评估。

Let's Roll: Synthetic Dataset Analysis for Pedestrian Detection Across Different Shutter Types
Authors Yue Hu, Gourav Datta, Kira Beerel, Peter Beerel
计算机视觉 CV 管道通常在图像信号处理 ISP 管道处理的数据集上进行评估，尽管对于资源受限的应用，一个重要的研究目标是避免尽可能多的 ISP 步骤。特别是，大多数 CV 数据集由全局快门 GS 图像组成，尽管当今大多数相机使用卷帘快门 RS 。本文研究了不同快门机制对我们使用虚幻引擎 5 UE5 的高级模拟功能生成的合成数据集上的机器学习 ML 对象检测模型的影响。特别是，我们使用合成生成的配对 GS 和 RS 数据集来训练和评估主流检测模型，以确定这两种快门模式之间的检测精度是否存在显着差异，特别是在捕获低速物体（例如行人）时。该仿真框架的结果表明，对于 IOU 0.5 的粗粒度检测平均精度 mAP 而言，它们之间的性能非常一致，但对于 IOU 0.5 0.95 的细粒度检测精度 mAP 测量，它们之间的性能存在显着差异。

AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with Pretrained ViT
Authors Fangbo Qin, Taogang Hou, Shan Lin, Kaiyuan Wang, Michael C. Yip, Shan Yu
针对灵活的以对象为中心的视觉感知，我们提出了一种一次性实例感知对象关键点 OKP 提取方法 AnyOKP，该方法利用预训练视觉转换器 ViT 强大的表示能力，并且可以在从支持学习后获得任意类别的多个对象实例上的关键点图像。直接部署现成的经过训练的 ViT 来进行可泛化和可转移的特征提取，然后进行免训练的特征增强。基于外观相似性在支持图像和查询图像中搜索最佳原型对BPP，以产生实例不知道的候选关键点。然后，根据图边上的特征分布将以所有候选关键点为顶点的整个图划分为子图。最后，每个子图代表一个对象实例。

MetaF2N: Blind Image Super-Resolution by Learning Efficient Model Adaptation from Faces
Authors Zhicun Yin, Ming Liu, Xiaoming Li, Hui Yang, Longan Xiao, Wangmeng Zuo
由于其高度结构化的特性，人脸比自然场景更容易恢复盲图像超分辨率。因此，我们可以从低质量和恢复的人脸对中提取图像的退化表示。使用退化表示，可以合成真实的低质量图像，以微调现实世界低质量图像的超分辨率模型。然而，这样的过程既费时又费力，而且恢复的人脸与真实情况之间的差距进一步增加了优化的不确定性。为了促进模型对图像特定退化的有效适应，我们提出了一种称为 MetaF2N 的方法，该方法利用包含的 Faces 来微调模型参数，以适应元学习框架中的整个自然图像。因此，我们的 MetaF2N 避免了退化提取和低质量图像合成步骤，并且只需要一个微调步骤即可获得不错的性能。考虑到恢复的人脸和真实情况之间的差距，我们进一步部署 MaskNet 来自适应预测不同位置的损失权重，以减少低置信区域的影响。为了评估我们提出的 MetaF2N，我们收集了一个真实世界的低质量数据集，每张图像中包含一张或多张面孔，并且我们的 MetaF2N 在合成数据集和真实世界数据集上都实现了卓越的性能。

Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions
Authors Tianxu Wu, Shuo Ye, Shuhuang Chen, Qinmu Peng, Xinge You
细粒度视觉分类的挑战在于如何探索不同子类之间的细微差异并实现准确区分。先前的研究依靠大规模注释数据和预训练的深度模型来实现目标。然而，当只有有限数量的样本可用时，类似的方法可能会变得不太有效。扩散模型由于其数据生成的突出多样性而在数据增强中被广泛采用。然而，细粒度图像所需的高细节水平使得直接采用现有方法具有挑战性。为了解决这个问题，我们提出了一种称为细节强化扩散模型 DRDM 的新方法，它利用大型模型的丰富知识进行细粒度数据增强，并包含两个关键组件，包括判别语义重组 DSR 和空间知识参考 SKR 。具体来说，DSR旨在从标签中提取隐式相似关系，并重建标签和实例之间的语义映射，从而能够更好地区分不同子类之间的细微差异。此外，我们引入了 SKR 模块，它将不同数据集的分布作为特征空间中的参考。这使得 SKR 能够在少量 FGVC 任务中聚合子类特征的高维分布，从而扩展决策边界。通过这两个关键组件，我们有效地利用大型模型的知识来解决数据稀缺问题，从而提高细粒度视觉识别任务的性能。

hear-your-action: human action recognition by ultrasound active sensing
Authors Risako Tanigawa, Yasunori Ishii
动作识别是许多工业应用的关键技术。使用图像等视觉信息的方法非常流行。然而，由于包含了私人信息（例如可见的面孔和场景背景），隐私问题阻碍了广泛使用，而这些信息对于识别用户操作来说并不是必需的。在本文中，我们提出了一种通过超声主动传感来保护隐私的动作识别。由于以非侵入方式进行超声主动传感的动作识别还没有得到很好的研究，我们创建了一个新的动作识别数据集，并对分类特征进行比较。我们通过关注超声波反射波振幅的时间变化来计算特征值，并使用支持向量机和 VGG 对八个基本动作类别进行分类。我们确认，当对同一个人和同一环境进行训练和评估时，我们的方法达到了 97.9 的准确率。此外，即使对不同的人进行训练和评估，我们的方法也能达到 89.5 的准确率。

Morphologically-Aware Consensus Computation via Heuristics-based IterATive Optimization (MACCHIatO)
Authors Dimitri Hamzaoui, Sarah Montagne, Rapha le Renard Penna, Nicholas Ayache, Herv Delingette
从多个二进制或概率掩码中提取共识分割对于解决各种任务（例如评估者间变异性分析或多个神经网络输出的融合）非常重要。获得这种共识分割的最广泛使用的方法之一是 STAPLE 算法。在本文中，我们首先证明该算法的输出很大程度上受到图像背景大小和先验选择的影响。然后，我们提出了一种新方法来构建基于仔细选择距离的 Fr chet 方法的二元或概率一致性分割，这使得它完全独立于图像背景大小。我们提供了一种启发式方法来优化此标准，以便体素的类别完全由其与不同掩模的体素距离、其所属的连接组件以及对其进行分段的评估者组来确定。我们在多个数据集上将我们的方法与 STAPLE 方法和朴素分割平均方法进行了广泛比较，表明它导致多数投票和 STAPLE 之间的中间大小的二进制一致性掩码，以及与掩码平均和 STAPLE 方法不同的后验概率。

Padding Aware Neurons
Authors Dario Garcia Gasulla, Victor Gimenez Abalos, Pablo Martin Torres
卷积层是大多数图像相关模型的基本组成部分。这些层通常默认实现静态填充策略（例如零填充），以控制内部表示的规模，并允许以边界区域为中心的内核激活。在这项工作中，我们确定了 Padding Aware Neurons PAN，这是一种过滤器，在大多数（如果不是全部）使用静态填充训练的卷积模型中都能找到。 PAN 专注于输入边界位置的表征和识别，在模型中引入空间归纳偏差，例如模式通常距离输入边界有多近。我们提出了一种通过激活来识别 PAN 的方法，并探索它们在几种流行的预训练模型中的存在，在所有探索的模型（从数十个到数百个）上找到 PAN。我们讨论并说明不同类型的 PAN、它们的内核和行为。为了了解它们的相关性，我们测试了它们对模型性能的影响，并找到填充和 PAN 以在数据中引入强烈的特征偏差。

Towards Large-scale Building Attribute Mapping using Crowdsourced Images: Scene Text Recognition on Flickr and Problems to be Solved
Authors Yao Sun, Anna Kruspe, Liqiu Meng, Yifan Tian, Eike J Hoffmann, Stefan Auer, Xiao Xiang Zhu
众包平台提供大量街景图像，其中包含有价值的建筑信息。这项工作解决了在众包街景图像中应用场景文本识别 STR 来构建属性映射的挑战。我们使用 Flickr 图像，特别是检查建筑物外墙上的文本。创建 Berlin Flickr 数据集，并使用预训练的 STR 模型进行文本检测和识别。对 STR 识别图像的子集进行手动检查显示出较高的准确性。我们检查了 STR 结果与建筑功能之间的相关性，并分析了在住宅建筑上但在商业建筑上无法识别文本的实例。进一步的调查揭示了与此任务相关的重大挑战，包括街景图像中的小文本区域、缺乏地面实况标签以及 Flickr 图像中的建筑物和 OpenStreetMap OSM 中的建筑物足迹不匹配。为了开发城市热点位置以外的城市范围的地图，我们建议区分 STR 证明有效的场景，同时开发适当的算法或引入额外的数据来处理其他情况。此外，应进行跨学科合作，以了解建筑摄影和标签背后的动机。

BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture
Authors Syed Sha Qutub, Neslihan Kose, Rafael Rosales, Michael Paulitsch, Korbinian Hagn, Florian Geissler, Yang Peng, Gereon Hinz, Alois Knoll
本文介绍了 Budding Ensemble Architecture BEA，这是一种用于基于锚的对象检测模型的新型简化集成架构。物体检测模型在基于视觉的任务中至关重要，特别是在自主系统中。他们应该提供精确的边界框检测，同时校准其预测的置信度分数，从而获得更高质量的不确定性估计。然而，当前的模型可能会由于误报获得高分而做出错误的决策，或者由于真阳性因低分而被丢弃。 BEA 旨在解决这些问题。 BEA 中提出的损失函数改进了置信度得分校准并降低了不确定性误差，从而更好地区分真阳性和假阳性，并最终提高对象检测模型的准确性。 Base YOLOv3 和 SSD 模型都使用 BEA 方法及其提出的损失函数进行了增强。在 KITTI 数据集上训练的 Base YOLOv3 上的 BEA 导致 mAP 和 AP50 分别增加 6 和 3.7。利用平衡良好的不确定性估计阈值来实时丢弃样本甚至会导致 AP50 比其基本模型高 9.6。这归因于用于衡量置信度分数校准质量的基于 AP50 的保留曲线下面积增加了 40。

Interpretability-Aware Vision Transformer
Authors Yao Qiang, Chengyin Li, Prashant Khanduri, Dongxiao Zhu
Vision Transformers ViT 已成为解决各种视觉任务的重要模型。然而，ViT 的可解释性并没有跟上其令人鼓舞的表现。虽然人们对开发事后解决方案来解释 ViT 输出的兴趣激增，但这些方法并不能推广到不同的下游任务和各种变压器架构。此外，如果 ViT 没有使用给定数据进行适当的训练，并且没有优先考虑感兴趣的区域，则事后方法的效果将会较差。我们没有开发另一种事后方法，而是引入了一种新颖的训练程序，该程序本质上增强了模型的可解释性。我们的可解释性意识 ViT IA ViT 从新的见解中汲取灵感，类补丁和图像补丁始终生成预测分布和注意力图。 IA ViT 由特征提取器、预测器和解释器组成，它们与可解释性感知训练目标联合训练。因此，解释器模拟预测器的行为，并通过其单头自注意力机制提供忠实的解释。我们全面的实验结果证明了 IA ViT 在多个图像分类任务中的有效性，并对模型性能和可解释性进行了定性和定量评估。

Depth Estimation from a Single Optical Encoded Image using a Learned Colored-Coded Aperture
Authors Jhon Lopez, Edwin Vargas, Henry Arguello
从传统相机的单个图像进行深度估计是一项具有挑战性的任务，因为在采集过程中深度线索会丢失。最先进的方法通过在镜头孔径中引入二进制编码孔径CA来提高不同深度之间的辨别力，该二进制编码孔径CA在不同深度处生成不同的编码模糊图案。颜色编码孔径 CCA 还会在捕获的图像中产生颜色失准，可用于估计视差。利用深度学习的进步，最近的工作探索了衍射光学元件 DOE 的数据驱动设计，用于通过色差编码深度信息。然而，与二元 CA 或 CCA 相比，DOE 的制造成本更高，并且需要高精度设备。与之前使用很少基本颜色的基于 CCA 的方法不同，在这项工作中，我们提出了一种具有更多数量的滤色器和更丰富的光谱信息的 CCA，以在单个快照中对相关深度信息进行光学编码。此外，我们建议联合学习颜色编码孔径 CCA 模式和卷积神经网络 CNN，以通过使用端到端优化方法来检索深度信息。我们通过对三个不同数据集的不同实验证明，设计的颜色编码有可能消除深度模糊性，并与最先进的方法相比提供更好的深度估计。

Empowering Visually Impaired Individuals: A Novel Use of Apple Live Photos and Android Motion Photos
Authors Seyedalireza Khoshsirat, Chandra Kambhamettu
已经开发了许多应用程序来帮助视障人士使用机器学习单元来处理视觉输入。然而，这些应用程序面临的一个关键挑战是用户捕获的图像质量不理想。考虑到视障人士操作相机的复杂性，我们提倡使用 Apple Live Photos 和 Android Motion Photos 技术。在这项研究中，我们引入了一种简单的方法来评估和对比实时动态照片与传统基于图像的方法的功效。我们的研究结果表明，在常见的视觉辅助任务中，特别是在对象分类和视频质量检查中，实时照片和动态照片都优于单帧图像。我们通过对 ORBIT 数据集进行大量实验来验证我们的结果，该数据集由视障人士收集的视频组成。

Vision-based Analysis of Driver Activity and Driving Performance Under the Influence of Alcohol
Authors Ross Greer, Akshay Gopalkrishnan, Sumega Mandadi, Pujitha Gunaratne, Mohan M. Trivedi, Thomas D. Marcotte
在美国，约 30 起交通事故死亡事故涉及醉酒驾驶，因此在美国和其他酒后驾驶盛行的地区，预防醉酒驾驶对于车辆安全至关重要。当驾驶员被要求向车辆仪器提供呼吸样本或被警察拦下时，可以通过主动使用传感器来监测驾驶障碍，但更被动和更强大的传感机制可能会更广泛地采用和受益。减少醉酒驾驶事故的智能系统。这可以帮助在驾驶前、或者在碰撞或被执法部门发现之前的驾驶过程早期识别出受损的驾驶员。在这项研究中，我们介绍了一项研究，该研究采用视觉、热、音频和化学传感器的多模态集合来 1 在驾驶模拟器中检查急性饮酒对驾驶表现的影响，2 确定用于检测驾驶的数据驱动方法在酒精的影响下。我们描述了用于分析热图像中驾驶员面部的计算机视觉和机器学习模型，并引入了一个管道，用于根据从具有一系列呼吸酒精含量水平的驾驶员收集的数据来训练模型，包括对相关机器学习现象的讨论，这可以帮助

Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation
Authors Zhaochong An, Guolei Sun, Zongwei Wu, Hao Tang, Luc Van Gool
现代方法已经证明了将语义分割作为广泛应用于实例级分割的掩模分类任务的巨大潜力。该范例通过传统的一对一匹配将部分对象查询分配给基本事实来训练模型。然而，我们观察到流行的视频语义分割 VSS 数据集每个视频的类别有限，这意味着在 VSS 训练期间可以匹配不到 10 个查询来接收有意义的梯度更新。这种低效率限制了所有查询的全部表达潜力。因此，我们提出了一种新颖的解决方案 THE Mask for VSS，它首次引入了时间感知分层对象查询。具体来说，我们建议使用简单的两轮匹配机制，以在训练期间以最小成本参与更多查询匹配，同时在推理期间无需任何额外成本。为了支持我们的多对一任务，在匹配结果方面，我们进一步设计了一种分层损失来训练查询及其相应的主要或次要层次结构。此外，为了有效地捕获跨帧的时间信息，我们提出了一种时间聚合解码器，它可以无缝地融入 VSS 的掩模分类范例。

Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset
Authors Iya Chivileva, Philip Lynch, Tomas E. Ward, Alan F. Smeaton
如果要生成可信的输出，让观看者相信其真实性，评估从文本到视频 T2V 模型生成的视频的质量非常重要。我们研究了该领域使用的一些指标并强调了它们的局限性。该论文提供了一个由 5 个最新 T2V 模型生成的 1,000 多个视频的数据集，其中应用了一些常用的质量指标。我们还对这些视频进行了广泛的人类质量评估，从而可以比较指标（包括人类评估）的相对优势和劣势。该贡献是对常用质量指标的评估，以及它们的性能与人类在 T2V 视频开放数据集上的评估性能的比较。

Kinship Verification from rPPG using 1DCNN Attention networks
Authors Xiaoting Wu, Xiaoyi Feng, Lili Liu, Constantino lvarez Casado, Miguel Bordallo L pez
人脸亲属关系验证旨在自动判断两个主体是否存在亲属关系。它已从不同的形态被广泛研究，如面孔、声音、步态和微笑表情。然而，生物信号的潜力，例如从面部视频中提取的远程光电体积描记法 rPPG，在亲属关系验证问题中仍然很大程度上未被开发。在本文中，我们首次研究了 rPPG 信号在亲属关系验证中的使用。具体来说，我们提出了一种带有 1DCNN 注意力模块和对比损失的一维卷积神经网络 1DCNN，以从 rPPG 中学习亲属关系相似度。该网络将从各种面部感兴趣区域 ROI 中提取的多个 rPPG 信号作为输入。此外，1DCNN 注意力模块旨在从特征嵌入中学习和捕获有区别的亲属特征。

Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
Authors James Burgess, Kuan Chieh Wang, Serena Yeung
文本到图像扩散模型理解对象之间的空间关系，但它们是否仅从 2D 监督中代表世界的真实 3D 结构我们证明，是的，3D 知识被编码在 2D 图像扩散模型（如稳定扩散）中，并且我们表明这种结构可用于 3D 视觉任务。我们的方法 Viewpoint Neural Textual Inversion ViewNeTI 控制从冻结扩散模型生成的图像中对象的 3D 视点。

Text-to-Image Models for Counterfactual Explanations: a Black-Box Approach
Authors Guillaume Jeanneret, Lo c Simon, Fr d ric Jurie
本文解决了生成反事实解释 CE 的挑战，涉及识别和修改最少的必要特征以改变分类器对给定图像的预测。我们提出的方法，用于反事实解释的文本到图像模型 TIME ，是一种基于蒸馏的黑盒反事实技术。与以前的方法不同，这种方法仅需要图像及其预测，而无需分类器的结构、参数或梯度。在生成反事实之前，TIME 以文本嵌入的形式将两种不同的偏差引入稳定扩散：与图像结构相关的上下文偏差和与目标分类器学习的类特定特征相关的类偏差。了解这些偏差后，我们找到应用分类器预测的类别标记的最佳潜在代码，并使用目标嵌入作为条件重新生成图像，从而产生反事实解释。

Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer
Authors Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu, Xi Li
从未同时看到一个物体并听到它的声音，模型是否仍然可以根据输入音频准确地定位其视觉位置。在这项工作中，我们专注于视听定位和分割任务，但在零镜头和少镜头场景下。为了实现这一目标，与大多数采用编码器融合解码器范式从融合的视听特征中解码定位信息的现有方法不同，我们引入了编码器提示解码器范式，旨在更好地适应数据稀缺和变化的数据分布困境。来自预先训练的模型的丰富知识的帮助。具体来说，我们首先提出构建语义感知音频提示 SAP，以帮助视觉基础模型专注于发声对象，同时也鼓励缩小视觉和音频模态之间的语义差距。然后，我们开发了一个 Correlation Adapter ColA，以最小化训练工作量并保持对视觉基础模型的足够了解。通过配备这些手段，大量的实验表明，这种新范式在看不见的类和跨数据集设置中都优于其他基于融合的方法。

Generalised Probabilistic Diffusion Scale-Spaces
Authors Pascal Peter
概率扩散模型擅长从学习的分布中采样新图像。最初受到物理学中的漂移扩散概念的启发，他们在前向过程中应用噪声和模糊等图像扰动，从而产生易于处理的概率分布。相应的学习逆过程会生成图像，并可以以辅助信息为条件，从而产生广泛的实际应用。目前大部分研究重点都集中在面向实践的扩展上。相比之下，理论背景在很大程度上仍未被探索，特别是与漂移扩散的关系。为了阐明这些与经典图像滤波的联系，我们提出了概率扩散模型的广义尺度空间理论。

OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection
Authors Yupeng Jia, Jie He, Runze Chen, Fang Zhao, Haiyong Luo
基于视觉的 3D 语义占用感知也称为 3D 语义场景完成，是自动驾驶等机器人应用的新感知范例。与鸟瞰BEV感知相比，它扩展了垂直维度，显着增强了机器人了解周围环境的能力。然而，正是由于这个原因，当前3D语义占用感知方法的计算需求普遍超过了BEV感知方法和2D感知方法。我们提出了一种新颖的 3D 语义占用感知方法 OccupancyDETR，它由类似 DETR 的对象检测模块和 3D 占用解码器模块组成。对象检测的集成在结构上简化了我们的方法，而不是预测每个体素的语义，它识别场景中的对象及其各自的 3D 占用网格。这加快了我们的方法，减少了所需的资源，并利用了对象检测算法，使我们的方法在小对象上具有显着的性能。

Segment Anything Model for Brain Tumor Segmentation
Authors Peng Zhang, Yaping Wang
神经胶质瘤是一种常见的脑肿瘤，对个人构成重大健康风险。脑肿瘤的准确分割对于临床诊断和治疗至关重要。 Meta AI 发布的 Segment Anything Model SAM 是图像分割的基础模型，具有出色的零样本泛化能力。因此，将 SAM 应用于脑肿瘤分割任务是很有趣的。

MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems
Authors Khayrul Islam, Ratul Paul, Shen Wang, Yaling Liu
无标记细胞分类有利于提供原始细胞以供进一步使用或检查，但现有技术在特异性和速度方面经常存在不足。在本研究中，我们通过开发一种新颖的机器学习框架——多重图像机器学习 MIML 来解决这些限制。该架构独特地将无标记细胞图像与生物力学属性数据相结合，利用每个细胞固有的大量且经常未充分利用的形态信息。通过整合这两种类型的数据，我们的模型利用传统机器学习模型中通常丢弃的形态信息，提供了对细胞特性的更全面的理解。这种方法使细胞分类的准确度达到了 98.3，比仅考虑单一数据类型的模型有了很大的改进。 MIML 已被证明可以有效地对白细胞和肿瘤细胞进行分类，由于其固有的灵活性和迁移学习能力，具有更广泛应用的潜力。它对于形态相似但生物力学特性不同的细胞特别有效。

3D SA-UNet: 3D Spatial Attention UNet with 3D ASPP for White Matter Hyperintensities Segmentation
Authors Changlu Guo
白质高信号 WMH 是一种与痴呆和中风等多种疾病相关的影像学特征。利用计算机技术准确分割WMH对于早期疾病诊断至关重要。然而，由于图像中对比度低、不连续性高的小病灶，包含有限的上下文和空间信息，这项任务仍然具有挑战性。为了应对这一挑战，我们提出了一种名为 3D Spatial Attention U Net 3D SA UNet 的深度学习模型，用于仅使用流体衰减反转恢复 FLAIR 扫描进行自动 WMH 分割。 3D SA UNet 引入了 3D 空间注意力模块，可突出显示重要的病变特征，例如 WMH，同时抑制不重要的区域。此外，为了捕获不同尺度的特征，我们将Atrous Spatial Pyramid Pooling ASPP模块扩展到3D版本，增强了网络的分割性能。我们在公开数据集上评估我们的方法，并证明 3D 空间注意模块和 3D ASPP 在 WMH 分割中的有效性。

Efficient Graphics Representation with Differentiable Indirection
Authors Sayantan Datta, Carl Marshall, Zhao Dong, Zhengqin Li, Derek Nowrouzezahrai
我们引入了可微间接，一种新颖的学习原语，它采用可微分多尺度查找表作为跨图形管道的传统计算和数据操作的有效替代品。我们展示了它在许多图形任务上的灵活性，即几何和图像表示、纹理映射、着色和辐射场表示。

Reconsidering evaluation practices in modular systems: On the propagation of errors in MRI prostate cancer detection
Authors Erlend Sortland Rolfsnes, Philip Thangngat, Trygve Eftest l, Tobias Nordstr m, Fredrik J derling, Martin Eklund, Alvaro Fernandez Quilez
磁共振成像已发展成为前列腺癌 PCa 检测的关键组成部分，大大增加了放射科医生的工作量。人工智能 AI 系统可以通过对有临床意义的 csPCa 和无临床意义的 ncsPCa 中的病变进行分割和分类来支持放射学评估。通常，用于 PCa 检测的人工智能系统涉及自动前列腺分割，然后使用提取的前列腺进行病变检测。然而，评估报告通常是在假设高度准确的分割和理想场景的情况下以检测的形式呈现，忽略了模块之间的错误传播。为此，我们评估了在检测阶段具有异构性能的两个不同分割网络 s1 和 s2 的效果，并将其与理想设置 s1 89.90 2.23 vs 88.97 3.06 ncsPCa, P .001、89.30 4.07 和 88.12 2.71 csPCa, P .001.

A Real-Time Active Speaker Detection System Integrating an Audio-Visual Signal with a Spatial Querying Mechanism
Authors Ilya Gurvich, Ido Leichter, Dharmendar Reddy Palle, Yossi Asher, Alon Vinnikov, Igor Abramovski, Vishak Gopal, Ross Cutler, Eyal Krupka
我们推出了一种独特的实时、因果、基于神经网络的主动说话人检测系统，该系统针对低功耗边缘计算进行了优化。该系统驱动虚拟电影摄影模块并部署在商业设备上。该系统使用来自麦克风阵列和 360 度摄像头的数据。对于有 14 名参与者的会议，我们的网络只需要每个参与者 127 MFLOP。与之前的工作不同，我们检查了计算预算耗尽时网络的错误率，发现它表现出优雅的退化，即使在这种情况下，系统也能运行得相当好。与传统的 DOA 估计方法不同，我们的网络学习查询可用的声学数据，考虑检测到的头部位置。

Efficient Polyp Segmentation Via Integrity Learning
Authors Ziqiang Chen, Kang Wang, Yun Liu
结肠镜检查中准确勾勒息肉对于协助诊断、指导干预和治疗至关重要。然而，当前的深度学习方法由于完整性缺陷而存在不足，这通常表现为缺失病变部分。本文从宏观和微观两个层面介绍了息肉分割中的完整性概念，旨在缓解完整性缺陷。具体来说，该模型应在宏观层面区分整个息肉，并在微观层面识别息肉内的所有组成部分。我们的完整性捕获 Polyp 分割 IC PolypSeg 网络利用轻量级主干和 3 个关键组件来改善完整性 1 像素级特征重新分布 PFR 模块在最终语义丰富的编码器特征中捕获跨通道的全局空间相关性。 2 跨阶段像素级特征重新分配 CPFR 模块动态融合高级语义和低级空间特征以捕获上下文信息。 3 粗到精校准模块结合PFR和CPFR模块，实现精确的边界检测。对 5 个公共数据集的广泛实验表明，所提出的 IC PolypSeg 在精度更高、计算效率显着提高和计算消耗更低方面优于 8 种最先进的方法。 IC PolypSeg EF0 使用的参数比 PraNet 少 300 倍，同时实现 235 FPS 的实时处理速度。

VERSE: Virtual-Gradient Aware Streaming Lifelong Learning with Anytime Inference
Authors Soumya Banerjee, Vinay K. Verma, Avideep Mukherjee, Deepak Gupta, Vinay P. Namboodiri, Piyush Rai
终身学习，也称为持续学习，是指持续训练人工智能代理，同时防止其忘记之前获得的知识的问题。大多数现有方法主要关注静态环境中的终身学习，缺乏在快速变化的动态环境中减轻遗忘的能力。流式终身学习是一种具有挑战性的终身学习环境，其目标是在动态的非固定环境中持续学习而不忘记。我们引入了一种新颖的终身学习方法，它是流式的，需要单次传递数据，可以以类增量方式学习，并且可以随时进行即时评估推理。为了实现这些目标，我们提出了用于持续表示学习的虚拟梯度，以防止灾难性遗忘，并利用基于指数移动平均的语义记忆来进一步提高性能。

Hyperspectral Image Denoising via Self-Modulating Convolutional Neural Networks
Authors Orhan Torun, Seniha Esen Yuksel, Erkut Erdem, Nevrez Imamoglu, Aykut Erdem
与自然图像相比，高光谱图像 HSI 由大量波段组成，每个波段捕获特定波长的不同光谱信息，甚至有些超出可见光谱。 HSI 的这些特性使其对于遥感应用非常有效。也就是说，现有的高光谱成像设备会导致 HSI 严重退化。因此，高光谱图像去噪最近引起了社会的广泛关注。虽然最近的深度 HSI 去噪方法提供了有效的解决方案，但它们在现实生活中复杂噪声下的性能仍然不理想，因为它们缺乏对新数据的适应性。为了克服这些限制，在我们的工作中，我们引入了一种自调制卷积神经网络，我们称之为 SM CNN，它利用相关的光谱和空间信息。该模型的核心是一个新颖的块，我们将其称为光谱自调制残差块 SSMRB，它允许网络基于相邻光谱数据以自适应方式转换特征，从而增强网络处理复杂噪声的能力。特别是，SSMRB 的引入将我们的去噪网络转变为动态网络，该网络可以适应其预测特征，同时根据每个输入 HSI 的空间光谱特征对其进行去噪。

Cross-Modal Synthesis of Structural MRI and Functional Connectivity Networks via Conditional ViT-GANs
Authors Yuda Bi, Anees Abrol, Jing Sui, Vince Calhoun
结构磁共振成像 sMRI 和功能网络连接 FNC 之间的跨模式综合是医学成像中相对未经探索的领域，特别是在精神分裂症方面。本研究采用条件 Vision Transformer 生成对抗网络 cViT GAN 根据 sMRI 输入生成 FNC 数据。在包含精神分裂症患者和健康对照受试者的综合数据集上进行训练后，我们的 cViT GAN 模型有效地合成了每个受试者的 FNC 矩阵，然后形成了组间差异 FNC 矩阵，与实际 FNC 矩阵的皮尔逊相关性为 0.73 。此外，我们的 FNC 可视化结果显示了特定皮层下大脑区域的显着相关性，突出了模型捕获详细结构功能关联的能力。这种性能将我们的模型与基于条件 CNN 的 GAN 替代品（例如 Pix2Pix）区分开来。

Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown Multi-Class Ensemble of CNNs
Authors Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Shaikh Anowarul Fattah, Mohammad Saquib
随着深度学习在音频语音处理中引入的巨大技术进步，许多新颖的合成语音技术取得了令人难以置信的现实结果。由于这些方法会生成逼真的假人声，因此可用于模仿、假新闻、传播、欺骗、媒体操纵等恶意行为。因此，检测合成或自然语音的能力已成为迫切需要的。此外，能够判断使用哪种算法来生成合成语音轨道对于追查罪魁祸首非常重要。在本文中，提出了一种新颖的策略，将合成语音轨道归因于用于合成它的生成器。所提出的检测器将音频转换为对数梅尔频谱图，使用 CNN 提取特征，并将其在五种已知和未知算法之间进行分类，利用半监督和集成显着提高其鲁棒性和泛化性。所提出的检测器在两个评估数据集上进行了验证，该数据集由总共 18,000 个弱扰动的 Eval 1 和 10,000 个强扰动的 Eval 2 合成语音组成。

Increasing diversity of omni-directional images generated from single image using cGAN based on MLPMixer
Authors Atsuya Nakata, Ryuto Miyazaki, Takao Yamanaka
本文提出了一种从单个快照图片生成全方位图像的新方法。之前的方法依赖于基于卷积神经网络CNN的生成对抗网络。尽管该方法已成功生成全向图像，但 CNN 对于此任务有两个缺点。首先，由于卷积层仅处理局部区域，因此很难将嵌入全向图像中心的输入快照图片的信息传播到图像的边缘。因此，基于 CNN 的生成器创建的全向图像往往在生成的图像边缘具有较少的多样性，从而创建相似的场景图像。其次，由于 CNN 深层结构的性质，基于 CNN 的模型需要图形处理单元中的大量视频内存，因为浅层网络仅接收来自有限范围的感受野的信号。为了解决这些问题，本文提出了基于MLPMixer的方法。 MLPMixer 被提议作为 Transformer 中自注意力的替代方案，它捕获长范围依赖性和上下文信息。这使得能够在全向图像生成任务中有效地传播信息。

Data-Driven Goal Recognition in Transhumeral Prostheses Using Process Mining Techniques
Authors Zihang Su, Tianshi Yu, Nir Lipovetzky, Alireza Mohammadi, Denny Oetomo, Artem Polyvyanyy, Sebastian Sardina, Ying Tan, Nick van Beest
经肱骨假体可以修复肩部以下缺失的解剖部位，包括手。主动假肢利用真实的、连续的传感器数据来识别患者的目标姿势或目标，并主动移动假肢。先前的研究已经检验了在不考虑时间步长的情况下以静止姿势收集的数据如何帮助区分目标。在本案例研究论文中，我们重点关注使用来自表面肌电图电极和运动传感器的时间序列数据来顺序识别患者目标。我们的方法包括将数据转换为离散事件并训练现有的基于流程挖掘的目标识别系统。在虚拟现实环境中收集的 10 个受试者的数据结果证明了我们提出的目标识别方法的有效性，该方法比最先进的机器学习技术实现了明显更好的精度和召回率，并且在错误时信心不足，这在近似时是有益的

Fast and Accurate Deep Loop Closing and Relocalization for Reliable LiDAR SLAM
Authors Chenghao Shi, Xieyuanli Chen, Junhao Xiao, Bin Dai, Huimin Lu
闭环和重定位是通过解决姿态估计漂移和退化问题建立可靠且稳健的长期 SLAM 的关键技术。本文首先在统一框架内制定循环闭合和重定位。然后，我们提出了一种新颖的多头网络 LCR Net 来有效地解决这两个任务。它利用新颖的特征提取和姿势感知注意机制来精确估计 LiDAR 扫描对之间的相似性和 6 DoF 姿势。最后，我们将 LCR Net 集成到 SLAM 系统中，并在户外驾驶环境中实现稳健且准确的在线 LiDAR SLAM。我们通过循环闭合和重定位派生的三种设置彻底评估我们的 LCR 网络，包括候选检索、闭环点云配准和使用多个数据集的连续重定位。结果表明，LCR Net 在所有三项任务中都表现出色，超越了最先进的方法，并表现出了卓越的泛化能力。值得注意的是，我们的 LCR Net 在不使用耗时的鲁棒姿态估计器的情况下优于基线方法，使其适合在线 SLAM 应用。据我们所知，LCR Net 的集成产生了第一个具有深度闭环和重定位能力的 LiDAR SLAM。

M3Dsynth: A dataset of medical 3D images with AI-generated local manipulations
Authors Giada Zingarini, Davide Cozzolino, Riccardo Corvi, Giovanni Poggi, Luisa Verdoliva
鉴于图像合成方法的快速发展，检测受操纵的视觉内容的能力在许多应用领域变得越来越重要。特别值得关注的是修改医学图像内容、改变诊断结果的可能性。尽管具有相关性，但这个问题受到研究界的关注有限。原因之一是缺乏用于开发和基准测试目的的大型且精选的数据集。在这里，我们研究了这个问题并提出了 M3Dsynth，这是一个操纵计算机断层扫描 CT 肺部图像的大型数据集。我们使用基于生成对抗网络 GAN 或扩散模型 DM 的三种不同方法，通过在真实 CT 扫描中注入或去除肺癌结节来创建操纵图像，总共 8,577 个操纵样本。实验表明，这些图像很容易欺骗自动诊断工具。我们还测试了几种最先进的取证探测器，并证明，一旦对所提出的数据集进行训练，它们就能够准确地检测和定位被操纵的合成内容，包括当训练集和测试集不对齐时，显示出良好的泛化能力。

Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
Authors Adam Rashid, Satvik Sharma, Chung Min Kim, Justin Kerr, Lawrence Chen, Angjoo Kanazawa, Ken Goldberg
通过特定部分抓取物体通常对于安全和执行下游任务至关重要。然而，基于学习的抓取规划器缺乏这种行为，除非他们接受特定对象部分数据的训练，这使得扩展对象多样性成为一个重大挑战。相反，我们提出了 LERF TOGO，用于面向任务的对象抓取的语言嵌入式辐射场，它使用视觉语言模型零镜头在给定自然语言查询的情况下输出对象上的抓取分布。为了实现这一目标，我们首先重建场景的 LERF，它将 CLIP 嵌入提炼成可通过文本查询的多尺度 3D 语言字段。然而，LERF 没有对象性意识，这意味着它的相关性输出通常会返回对象上不完整的激活，这不足以用于后续部分查询。 LERF TOGO 通过通过 DINO 特征提取 3D 对象掩码，然后有条件地查询该掩码上的 LERF，以获得对象的语义分布，并利用该语义分布对来自现成抓握规划器的抓握进行排名，从而缓解了空间分组不足的问题。我们评估了 LERF TOGO 在 31 个不同物理对象上抓取面向任务的对象部分的能力，发现它在 81 次尝试中选择了正确的部分，并在 69 次中成功抓取。

COMPASS: High-Efficiency Deep Image Compression with Arbitrary-scale Spatial Scalability
Authors Jongmin Park, Jooyoung Lee, Munchurl Kim
最近，基于神经网络 NN 的图像压缩研究已被积极开展，并且与传统方法相比，显示出令人印象深刻的性能。然而，大多数工作都集中在不可伸缩图像压缩单层编码上，而空间可伸缩图像压缩虽然有很多应用，但很少受到关注。在本文中，我们提出了一种新颖的基于神经网络的空间可扩展图像压缩方法，称为COMPASS，它支持任意尺度的空间可扩展性。我们提出的 COMPASS 具有非常灵活的结构，其中层数及其各自的比例因子可以在推理过程中任意确定。为了减少任意尺度因子的相邻层之间的空间冗余，我们的 COMPASS 采用了一种基于隐式神经表示的层间任意尺度预测方法，称为 LIFF。我们提出了一个组合的 RD 损失函数来有效地训练多个层。实验结果表明，对于各种比例因子的组合，与 SHVC 和最先进的基于 NN 的空间可扩展图像压缩方法相比，我们的 COMPASS 的 BD 速率增益最大分别为 58.33 和 47.17。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com