【AI视野·今日CV 计算机视觉论文速览第284期】Fri, 5 Jan 2024_frequency-adaptive pan-sharpening with mixture of -CSDN博客

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 5 Jan 2024
Totally 62 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning to Prompt with Text Only Supervision for Vision-Language Models
Authors Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Muzammal Naseer, Luc Van Gool, Federico Tombari
由于其出色的泛化能力，诸如 CLIP 之类的基础视觉语言模型正在成为视觉领域的新范式。然而，使这些模型适应下游任务，同时保持其泛化性仍然是一个挑战。在文献中，方法的一个分支通过使用视觉信息学习提示来适应 CLIP。虽然有效，但大多数这些工作都需要标记数据，这是不切实际的，并且由于对源数据的过度拟合，通常很难推广到新的数据集。另一种方法是通过从大型语言模型 LLM 生成类描述并执行即时集成来采用免训练方法。然而，这些方法通常会生成无法转移到其他班级的特定于班级的提示，这会因单独为每个班级生成LLM描述而产生更高的成本。在这项工作中，我们建议通过仅使用从法学硕士获得的文本数据来学习提示，从而结合这两种方法的优势。由于缺乏图像，提示的监督训练并非微不足道，因此我们开发了一种训练方法，允许提示从法学硕士数据中提取丰富的上下文知识。此外，通过在学习的提示中映射 LLM 上下文数据，它可以将提示零次转移到新课程和数据集，从而可能降低 LLM 提示工程成本。据我们所知，这是第一个使用纯文本数据学习通用提示的工作。我们对 4 个基准进行了广泛的评估，我们的方法比之前的集成工作有所改进，同时与使用标记图像的方法相比具有竞争力。

ODIN: A Single Model for 2D and 3D Perception
Authors Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
ScanNet 等当代 3D 感知基准的最先进模型使用和标签数据集提供了 3D 点云，这些点云是通过感测的多视图 RGB D 图像的后处理获得的。它们通常在域中进行训练，放弃大规模 2D 预训练，并优于以 RGB D 多视图图像为特征的替代方案。使用姿势图像的方法与后处理的 3D 点云的方法之间的性能差距让人更加相信 2D 和 3D 感知需要不同的模型架构。在本文中，我们挑战了这一观点，并提出了 ODIN Omni Dimensional INstance 分割，这是一种可以分割和标记 2D RGB 图像和 3D 点云的模型，使用在 2D 视图内和 3D 跨视图信息融合之间交替的转换器架构。我们的模型通过所涉及标记的位置编码来区分 2D 和 3D 特征操作，该编码捕获 2D 补丁标记的像素坐标和 3D 特征标记的 3D 坐标。 ODIN 在 ScanNet200、Matterport3D 和 AI2THOR 3D 实例分割基准上实现了最先进的性能，在 ScanNet、S3DIS 和 COCO 上实现了具有竞争力的性能。当使用感测到的 3D 点云代替从 3D 网格采样的点云时，它的性能大大优于以前的所有工作。当在可指导的具体代理架构中用作 3D 感知引擎时，它为对话基准的 TEACh 动作设定了新的技术水平。

Bring Metric Functions into Diffusion Models
Authors Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan Wang, Jiebo Luo
我们引入了级联扩散模型 Cas DM，它通过在训练中有效地结合额外的度量函数来改进去噪扩散概率模型 DDPM。诸如 LPIPS 损失之类的度量函数已被证明在从分数匹配得出的一致性模型中非常有效。然而，对于扩散对应物，添加额外度量函数的方法和功效仍不清楚。一个主要挑战是 DDPM 在每一步预测的噪声与度量函数运行良好的所需干净图像之间的不匹配。为了解决这个问题，我们提出了 Cas DM，这是一种级联两个网络模块的网络架构，可以有效地将度量函数应用于扩散模型训练。第一个模块与标准 DDPM 类似，学习预测添加的噪声，并且不受度量函数的影响。第二个级联模块学习预测干净图像，从而促进度量函数计算。

What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
Authors Alex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano
3D 感知生成对抗网络 GAN 在学习通过神经体积渲染从 2D 图像集合中生成多视图一致图像和场景的 3D 几何图形方面取得了显着进展。然而，体渲染中密集采样的显着内存和计算成本迫使 3D GAN 采用基于补丁的训练或采用具有后处理 2D 超分辨率的低分辨率渲染，这会牺牲多视图一致性和解析几何的质量。因此，3D GAN 尚未能够完全解析 2D 图像中存在的丰富 3D 几何形状。在这项工作中，我们提出了将神经体积渲染缩放到原始 2D 图像的更高分辨率的技术，从而以前所未有的细节解析细粒度 3D 几何。我们的方法采用基于学习的采样器来加速 3D GAN 训练的神经渲染，使用的深度样本减少了 5 倍。这使我们能够在训练和推理过程中显式渲染全分辨率图像的每个像素，而无需在 2D 中进行后处理超分辨率。结合我们学习高质量表面几何形状的策略，我们的方法合成了高分辨率 3D 几何形状并严格查看一致的图像，同时依靠后处理超分辨率保持图像质量与基线相当。

3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation
Authors Zihao Xiao, Longlong Jing, Shangxuan Wu, Alex Zihao Zhu, Jingwei Ji, Chiyu Max Jiang, Wei Chih Hung, Thomas Funkhouser, Weicheng Kuo, Anelia Angelova, Yin Zhou, Shiwei Sheng
3D 全景分割是一项具有挑战性的感知任务，旨在预测场景中 3D 点的语义和实例注释。尽管先前的 3D 全景分割方法在封闭集基准上取得了出色的性能，但推广到新类别仍然是一个悬而未决的问题。对于看不见的对象类别，2D 开放词汇分割仅依赖于冻结的 CLIP 主干和集成多个分类输出，已经取得了有希望的结果。然而，我们发现简单地将这些 2D 模型扩展到 3D 并不能实现良好的性能，因为新类别的每个掩模分类质量较差。在本文中，我们提出了第一种解决 3D 开放词汇全景分割的方法。我们的模型利用可学习 LiDAR 特征和密集冻结视觉 CLIP 特征之间的融合，使用单个分类头对基础类和新类进行预测。为了进一步提高新类的分类性能并利用 CLIP 模型，我们提出了两种新的损失函数：对象级蒸馏损失和体素级蒸馏损失。

Learning the 3D Fauna of the Web
Authors Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu
学习地球上所有动物的 3D 模型需要大规模扩展现有解决方案。考虑到这一最终目标，我们开发了 3D Fauna，这是一种联合学习 100 多种动物物种的泛类可变形 3D 动物模型的方法。动物建模的一个关键瓶颈是训练数据的可用性有限，我们通过简单地从 2D 互联网图像中学习来克服这一瓶颈。我们表明，先前的特定类别尝试无法推广到训练图像有限的稀有物种。我们通过引入蒙皮模型语义库 SBSM 来解决这一挑战，该模型通过将几何归纳先验与现成的自监督特征提取器隐式捕获的语义知识相结合，自动发现一小组基本动物形状。为了训练这样的模型，我们还贡献了一个新的不同动物物种的大规模数据集。

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning
Authors Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo
图表在数据可视化、理解数据模式和明智决策方面发挥着至关重要的作用。然而，它们对图形元素（例如条形、线条）和文本组件（例如标签、图例）的独特组合对通用多模式模型提出了挑战。虽然在图表数据上训练的视觉语言模型在理解方面表现出色，但它们在泛化方面存在困难，并且需要特定于任务的微调。为了应对这些挑战，我们提出了 ChartAssistant，这是一种基于图表的视觉语言模型，用于通用图表理解和推理。 ChartAssistant 利用 ChartSFT，这是一个综合数据集，涵盖具有基本和专业图表类型的各种图表相关任务。它经历了两个阶段的训练过程，从图表到表格解析的预训练开始，以对齐图表和文本，然后是微调后的多任务指令。这种方法使 ChartAssistant 能够在各种图表任务中实现具有竞争力的性能，而无需特定于任务的微调。实验结果表明，与最先进的 UniChart 方法相比，性能显着提升，在真实世界图表数据上的性能优于 OpenAI 的 GPT 4V 版本。

Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications
Authors Darshan Venkatrayappa, Alain Tremeau, Damien Muselet, Philippe Colantoni
根据 RGB 图像进行 3D 人体形状和姿势估计是一个具有挑战性的问题，在增强虚拟现实、医疗保健和健身技术以及虚拟零售方面具有潜在的应用。最近的解决方案集中于三种类型的输入：i 单图像、ii 多视图图像和 iii 视频。在这项研究中，我们调查和比较了当代舞蹈和表演艺术的 3D 身体形状和姿势估计方法，特别关注人体姿势和着装、摄像机视角、照明条件和背景条件。

An Open and Comprehensive Pipeline for Unified Object Grounding and Detection
Authors Xiangyu Zhao, Yicheng Chen, Shilin Xu, Xiangtai Li, Xinjiang Wang, Yining Li, Haian Huang
Grounding DINO 是最先进的开放集检测模型，可处理多种视觉任务，包括开放词汇检测 OVD、短语接地 PG 和引用表达理解 REC。其有效性使其被广泛采用作为各种下游应用程序的主流架构。然而，尽管具有重要意义，原始的 Grounding DINO 模型由于缺乏训练代码，缺乏全面的公开技术细节。为了弥补这一差距，我们推出了 MM Grounding DINO，这是一个开源、全面且用户友好的基线，它是使用 MMDetection 工具箱构建的。它采用丰富的视觉数据集进行预训练，并采用各种检测和接地数据集进行微调。我们对每个报告的结果进行全面分析，并进行详细的再现设置。对上述基准进行的大量实验表明，我们的 MM Grounding DINO Tiny 优于 Grounding DINO Tiny 基线。我们向研究界发布了所有模型。

Fit-NGP: Fitting Object Models to Neural Graphics Primitives
Authors Marwan Taher, Ignacio Alzugaray, Andrew J. Davison
准确的 3D 物体姿态估计是实现许多涉及具有挑战性的物体交互的机器人应用的关键。在这项工作中，我们表明，由最先进的高效辐射场重建方法创建的密度场适用于对具有已知 3D 模型的物体进行高精度和稳健的姿态估计，即使它们非常小并且具有具有挑战性的反射表面。我们提出了一种基于带有单个手腕安装摄像头的机器人手臂的全自动物体姿态估计系统，该系统可以从头开始扫描场景，在几分钟的操作内检测和估计多个物体的 6 自由度 DoF 姿态。

Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training
Authors Longtian Qiu, Shan Ning, Xuming He
图像字幕旨在生成图像的描述性且有意义的文本描述，从而实现广泛的视觉语言应用。先前的工作已经证明，利用对比图像语言预训练 CLIP 的力量提供了一种有前途的方法来实现零镜头字幕，从而消除了昂贵的字幕注释的需要。然而，CLIP 潜在空间中广泛观察到的模态间隙会破坏成对图像文本特征之间的对齐，从而损害零镜头字幕的性能。为了解决这个问题，我们对 CLIP 潜在空间进行了分析，得出了两个发现。首先，我们观察到由于文本描述中固有的信息丢失，CLIP 的图像子区域的视觉特征可以实现与配对标题更接近。此外，我们还表明，配对图像文本之间的模态差距可以根据经验建模为零均值高斯分布。受这些发现的启发，我们提出了一种新颖的零镜头图像字幕框架，仅进行文本训练以减少模态差距。特别是，我们引入了子区域特征聚合来利用局部区域信息，从而生成用于匹配文本表示的紧凑视觉表示。此外，我们还采用噪声注入和 CLIP 重新排序策略来提高字幕性能。我们还扩展了我们的框架来构建零样本 VQA 管道，展示了其通用性。通过对常见字幕和 VQA 数据集（例如 MSCOCO、Flickr30k 和 VQAV2）的大量实验，我们表明我们的方法取得了显着的性能改进。

Linguistic Profiling of Deepfakes: An Open Database for Next-Generation Deepfake Detection
Authors Yabin Wang, Zhiwu Huang, Zhiheng Ma, Xiaopeng Hong
文本到图像生成模型的出现彻底改变了深度伪造领域，使得能够直接从文本描述创建真实且令人信服的视觉内容。然而，这一进步给检测此类内容的真实性带来了相当大的挑战。现有的 Deepfake 检测数据集和方法通常无法有效捕获广泛的新兴 Deepfake 并为检测提供令人满意的解释信息。为了解决这个重大问题，本文介绍了一个 Deepfake 数据库 DFLIP 3K，用于开发令人信服且可解释的 Deepfake 检测。它包含来自约 3K 生成模型的约 30 万个不同的 Deepfake 样本，是文献中数量最多的 Deepfake 模型。此外，它还收集了大约 19 万个深度赝品的语言足迹。这两个显着的功能使 DFLIP 3K 能够开发一个基准，促进 Deepfake 语言分析的进展，其中包括三个子任务，即 Deepfake 检测、模型识别和即时预测。 Deepfake 模型和提示是每个 Deepfake 的两个重要组成部分，因此从语言上剖析它们可以在 Deepfake 检测中对可信且可解释的证据进行宝贵的探索，我们认为这是下一代 Deepfake 检测的关键。此外，DFLIP 3K 被设想为一个开放数据库，可提高透明度并鼓励协作努力以进一步促进其发展。

LLaVA-$ϕ$: Efficient Multi-Modal Assistant with Small Language Model
Authors Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
在本文中，我们介绍了 LLaVA phi LLaVA Phi，这是一种高效的多模态助手，它利用最近先进的小语言模型 Phi 2 的强大功能来促进多模态对话。 LLaVA Phi 标志着紧凑型多模式模型领域的显着进步。它表明，即使是参数少至 2.7B 的较小语言模型，也可以有效地参与集成文本和视觉元素的复杂对话，只要它们接受高质量语料库的训练。我们的模型在公开的基准测试中提供了值得称赞的性能，包括视觉理解、推理和基于知识的感知。除了在多模式对话任务中表现出色之外，我们的模型还为时间敏感的环境和需要实时交互的系统（例如实体代理）中的应用开辟了新的途径。

ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation
Authors Xinyang Pu, Hecheng Jia, Linghao Zheng, Feng Wang, Feng Xu
在人工智能领域，以高计算能力和广泛数据为支持的基础模型的出现是革命性的。 Segment Anything Model SAM 基于 Vision Transformer ViT 模型构建，拥有数百万个参数和庞大的训练数据集 SA 1B，凭借其语义信息的重要性和泛化能力，在各种分割场景中表现出色。视觉基础模型的取得激发了对计算机视觉特定下游任务的持续研究。 ClassWise SAM 适配器 CWSAM 旨在适应高性能 SAM，对星载合成孔径雷达 SAR 图像进行土地覆盖分类。所提出的 CWSAM 冻结了 SAM 的大部分参数，并结合了轻量级适配器以进行参数有效的微调，并且设计了分类掩码解码器来实现语义分割任务。这种自适应调整方法可以对 SAR 图像进行有效的土地覆盖分类，平衡精度与计算需求。此外，任务特定输入模块通过基于 MLP 的层注入 SAR 图像的低频信息，以提高模型性能。与通过大量实验得出的传统最先进语义分割算法相比，CWSAM 以更少的计算资源展示了增强的性能，凸显了利用 SAM 等基础模型执行 SAR 领域特定下游任务的潜力。

BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model
Authors Yiran Song, Qianyu Zhou, Xiangtai Li, Deng Ping Fan, Xuequan Lu, Lizhuang Ma
在本文中，我们解决了分段任意模型 SAM 的图像分辨率变化的挑战。 SAM 以其零样本泛化性而闻名，但在面对图像大小不同的数据集时会表现出性能下降。以前的方法倾向于将图像大小调整为固定大小或采用结构修改，这阻碍了 SAM 丰富的先验知识的保存。此外，这种特定于任务的调整需要对模型进行完全的重新训练，这成本昂贵并且对于下游任务中的部署来说是不可接受的。在本文中，我们将这个问题重新表述为长度外推问题，其中令牌序列长度变化，同时为不同尺寸的图像保持一致的补丁尺寸。为此，我们提出了可扩展偏置模式注意掩模 BA SAM，以增强 SAM 对不同图像分辨率的适应性，同时消除结构修改的需要。首先，我们引入了一个新的缩放因子，以确保当令牌序列长度发生变化时，注意力层的点积值的大小保持一致。其次，我们提出了一种偏差模式注意掩模，允许每个标记优先考虑相邻信息，从而减轻未经训练的远距离信息的影响。我们的 BA SAM 在零射击和微调两种场景中展示了功效。对各种数据集（包括 DIS5K、DUTS、ISIC、COD10K 和 COCO）的广泛评估表明，其能够显着减轻零样本设置中的性能下降，并通过最少的微调实现最先进的性能。

SuperEdge: Towards a Generalization Model for Self-Supervised Edge Detection
Authors Leng Kai, Zhang Zhijie, Liu Jie, Zed Boukhers, Sui Wei, Cong Yang, Li Zhijun
边缘检测是各种计算机视觉任务中的一项基本技术。边缘确实可以通过像素不连续性有效地描绘，即使在无纹理区域也可以提供可靠的结构信息。最先进的技术在很大程度上依赖于像素级注释，这是劳动密集型的，并且在手动获取时容易出现不一致的情况。在这项工作中，我们提出了一种新颖的自监督边缘检测方法，该方法采用多级、多单应性技术将注释从合成数据集转移到现实世界数据集。为了充分利用生成的边缘注释，我们开发了 SuperEdge，这是一种精简而高效的模型，能够同时提取像素级和对象级粒度的边缘。由于自我监督训练，我们的方法消除了对手动注释边缘标签的依赖，从而增强了其在不同数据集上的通用性。

TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and Highlight Detection
Authors Hao Sun, Mingyao Zhou, Wenjing Chen, Wei Xie
基于自然语言查询的视频时刻检索MR和亮点检测HD是两个高度相关的任务，其目的是获取视频中的相关时刻以及每个视频片段的亮点分数。最近，有几种方法致力于构建基于 DETR 的网络来共同解决 MR 和 HD 问题。这些方法在多模态特征提取和特征交互后简单地添加两个独立的任务头，取得了良好的性能。然而，这些方法没有充分利用两个任务之间的相互关系。在本文中，我们提出了一种基于 DETR TR DETR 的任务互易变压器，重点探索 MR 和 HD 之间固有的互易性。具体来说，首先构建局部全局多模态对齐模块，将不同模态的特征对齐到共享的潜在空间中。随后，设计了视觉特征细化，以从模态交互的视觉特征中消除与查询无关的信息。最后，利用 MR 和 HD 之间的互易性，构建任务协作模块来细化检索管道和亮点分数预测过程。对 QVHighlights、Charades STA 和 TVSum 数据集的综合实验表明，TR DETR 优于现有的最先进方法。

GridFormer: Point-Grid Transformer for Surface Reconstruction
Authors Shengtao Li, Ge Gao, Yudong Liu, Yu Shen Liu, Ming Gu
隐式神经网络已成为 3D 表面重建的关键技术。为了从离散点云重建连续表面，现有方法中通常采用将输入点编码到规则网格特征平面或体积中。然而，这些方法通常使用网格作为均匀分散点特征的索引。与不规则点特征相比，规则网格特征可能会牺牲一些重建细节但提高效率。为了充分利用这两类特征，我们在网格和点特征之间引入了一种新颖且高效的注意力机制，名为 Point Grid Transformer GridFormer 。该机制将网格视为连接空间和点云的传递点。我们的方法最大化网格特征的空间表现力并保持计算效率。此外，优化整个空间的预测可能会导致边界模糊。为了解决这个问题，我们进一步提出了一种结合边缘二元交叉熵损失和边界采样的边界优化策略。这种方法使我们能够更精确地表示对象结构。我们的实验验证了我们的方法是有效的，并且通过产生更精确的几何重建，在广泛使用的基准下优于最先进的方法。

Distillation-based fabric anomaly detection
Authors Simon Thomine, Hichem Snoussi
无监督纹理异常检测一直是大量工业过程中的一个令人担忧的话题。图案纹理检测，特别是在织物缺陷检测中，确实是一个广泛遇到的用例。这项任务涉及处理各种颜色和纺织品类型，涵盖各种织物。鉴于颜色、纹理和缺陷类型的广泛变化，织物缺陷检测在图案纹理检测领域提出了复杂且具有挑战性的问题。在本文中，我们提出了一种基于知识蒸馏的方法，专门用于解决类似织物的纹理中无监督异常检测的挑战。我们的方法旨在重新定义最近引入的反向蒸馏方法，该方法提倡编码器解码器设计以减轻分类器偏差并防止学生重建异常。在这项研究中，我们提出了一种新的反蒸馏技术，用于织物缺陷检测的特定任务。我们的方法涉及精心的设计选择，战略性地突出高级功能。为了证明我们的方法在性能和推理速度方面的能力，我们对多个纹理数据集（包括 MVTEC AD、AITEX 和 TILDA）进行了一系列实验，同时对从纺织制造工厂获取的数据集进行了实验。

PEGASUS: Physically Enhanced Gaussian Splatting Simulation System for 6DOF Object Pose Dataset Generation
Authors Lukas Meyer, Floris Erich, Yusuke Yoshiyasu, Marc Stamminger, Noriaki Ando, Yukiyasu Domae
我们介绍用于 6DOF 物体姿态数据集生成的物理增强高斯泼溅模拟系统 PEGASUS，这是一种基于 3D 高斯泼溅的多功能数据集生成器。使用商用相机可以轻松获得环境和对象表示，并通过高斯泼溅进行重建。 PEGASUS 允许通过将环境中各自的底层高斯溅射点云与一个或多个对象合并来组合新场景。利用物理引擎，可以通过为对象提取的网格与环境之间的交互来模拟场景内的自然对象放置。因此，可以通过组合不同的环境和对象来创建大量静态或动态的新场景。通过从不同角度渲染场景，可以提取不同的数据点，例如 RGB 图像、深度图、语义掩模和 6DoF 对象姿势。我们的研究表明，对 PEGASUS 生成的数据进行训练可以使姿态估计网络成功地从合成数据转移到现实世界数据。此外，我们还引入了 Ramen 数据集，其中包含 30 个日本杯面项目。

Lightweight Fish Classification Model for Sustainable Marine Management: Indonesian Case
Authors Febrian Kurniawan, Gandeva Bayu Satrya, Firuz Kamalov
对海鲜产品的巨大需求导致了海洋资源的开发和一些物种的濒临灭绝。特别是过度捕捞是海洋可持续发展的主要问题之一。为了与保护海洋资源和可持续渔业相一致，本研究提出推进鱼类分类技术，支持利用最先进的机器学习识别受保护的鱼类物种。我们使用 MobileNet 模型的自定义修改来设计一个名为 M MobileNet 的轻量级分类器，它能够在有限的硬件上运行。作为研究的一部分，我们编制了一个带标签的数据集，其中包含在印度尼西亚群岛水域发现的 37,462 张鱼类图像。所提出的模型在数据集上进行训练，将捕获的鱼的图像分类为它们的物种，并就它们是否可消耗提供建议。我们修改后的 MobileNet 模型仅使用 50 个顶层参数和约 42 个 GTX 860M 实用程序，并在鱼类分类和确定其可消耗性方面实现高达 97 的准确度。鉴于许多渔船可用的计算能力有限，所提出的模型为现场鱼类分类提供了实用的解决方案。

ShapeAug: Occlusion Augmentation for Event Camera Data
Authors Katharina Bendig, Ren Schuster, Didier Stricker
最近，动态视觉传感器 DVS 因其相对于传统 RGB 相机的固有优势而引起了广泛关注。这些优点包括低延迟、高动态范围和低能耗。尽管如此，使用深度学习 DL 方法处理 DVS 数据仍然是一个挑战，特别是因为事件训练数据的可用性仍然有限。这导致需要事件数据增强技术，以提高准确性并避免训练数据的过度拟合。特别是在现实世界的汽车应用中，另一个挑战是遮挡，这意味着一个物体阻碍了对其后面物体的观察。在本文中，我们提出了一种新颖的事件数据增强方法，该方法通过为场景中随机移动的对象引入合成事件来解决这个问题。我们在多个 DVS 分类数据集上测试了我们的方法，结果 top1 准确率相对提高了 6.5。

Slot-guided Volumetric Object Radiance Fields
Authors Di Qi, Tong Yang, Xiangyu Zhang
我们提出了一个以 3D 对象为中心的表示学习的新颖框架。我们的方法以无人监督的方式有效地将复杂场景从单个图像分解为单独的对象。该方法称为槽引导体积对象辐射场 sVORF，将体积对象辐射场与对象槽组合起来，作为实现无监督 3D 场景分解的指导。具体来说，sVORF 通过转换器模块从单个图像中获取对象槽，使用超网络将这些槽映射到体积对象辐射场，并在 3D 位置处的对象槽的引导下组成对象辐射场。此外，由于训练期间的小尺寸像素渲染，sVORF 显着降低了内存需求。我们通过展示复杂合成数据集（例如 Room Diverse）的场景分解和生成任务的最佳结果来证明我们方法的有效性。此外，我们还确认了 sVORF 在现实世界场景中分割对象的潜力，例如 LLFF 数据集。

Prompt Decoupling for Text-to-Image Person Re-identification
Authors Weihao Li, Lei Tan, Pingyang Dai, Yan Zhang
文本到图像人物重新识别 TIReID 旨在通过文本描述查询从图像库中检索目标人物。最近，像 CLIP 这样的预训练视觉语言模型因其强大的语义概念学习能力和丰富的多模态知识而引起了极大的关注并被广泛用于这项任务。然而，最近基于 CLIP 的 TIReID 方法通常依赖于整个网络的直接微调，以使 CLIP 模型适应 TIReID 任务。尽管这些方法在该主题上显示出有竞争力的性能，但它们并不是最理想的，因为它们需要同时进行域适应和任务适应。为了解决这个问题，我们尝试在训练阶段将这两个过程解耦。具体来说，我们引入了即时调整策略来实现领域适应，并提出了一种两阶段训练方法来将领域适应与任务适应分开。在第一阶段，我们冻结 CLIP 的两个编码器，只专注于优化提示，以缩小 CLIP 原始训练数据与下游任务之间的领域差距。在第二阶段，我们保持固定提示并微调 CLIP 模型，以优先捕获细粒度信息，这更适合 TIReID 任务。最后，我们评估了我们的方法在三个广泛使用的数据集上的有效性。

Frequency Domain Nuances Mining for Visible-Infrared Person Re-identification
Authors Yukang Zhang, Yang Lu, Yan Yan, Hanzi Wang, Xuelong Li
可见红外行人再识别VIReID的关键在于如何最小化可见光和红外图像之间的模态差异。现有方法主要利用空间信息，而忽略了辨别频率信息。为了解决这个问题，本文旨在从频域角度减少模态差异。具体来说，我们提出了一种新的频域细微差别挖掘FDNM方法来探索跨模态频域信息，该方法主要包括幅度引导相位AGP模块和幅度细微差别挖掘ANM模块。这两个模块互惠互利，共同探索频域可见红外细微差别，从而有效减少频域的模态差异。此外，我们提出了一个中心引导的细微差别挖掘损失，以鼓励 ANM 模块保留有区别的身份信息，同时发现不同的跨模态细微差别。据我们所知，这是第一个探索 VIReID 研究潜在频率信息的工作。大量实验表明，所提出的FDNM在提高VIReID性能方面具有显着优势。具体来说，在室内搜索模式下，我们的方法在 SYSU MM01 数据集上的 Rank 1 准确率比第二佳方法高出 5.2，mAP 比第二佳方法高出 5.8。此外，我们还验证了我们的方法在具有挑战性的可见红外人脸识别任务上的有效性和泛化性。

Enhancing RAW-to-sRGB with Decoupled Style Structure in Fourier Domain
Authors Xuanhua He, Tao Hu, Guoli Wang, Zejin Wang, Run Wang, Qian Zhang, Keyu Yan, Ziyi Chen, Rui Li, Chenjun Xie, Jie Zhang, Man Zhou
RAW 到 sRGB 映射旨在将智能手机中的 RAW 图像转换为与数码单镜头反光 DSLR 相机相当的 RGB 形式，已成为一个重要的研究领域。然而，当前的方法经常忽略手机 RAW 图像和 DSLR 相机 RGB 图像之间的差异，这种差异超出了颜色矩阵，并由于分辨率变化而延伸到空间结构。最近的方法通过共享深度表示直接重建颜色映射和空间结构，限制了最佳性能。受图像信号处理 ISP 管道（区分图像恢复和增强）的启发，我们提出了一种新颖的神经 ISP 框架，名为 FourierISP。这种方法将图像分解为频域内的风格和结构，从而允许独立优化。 FourierISP 由三个子网络组成：用于结构细化的相位增强子网、用于颜色学习的振幅细化子网和用于平滑混合它们的颜色适应子网。这种方法锐化了颜色和结构，并且对不同数据集的广泛评估证实我们的方法实现了最先进的结果。

Frequency-Adaptive Pan-Sharpening with Mixture of Experts
Authors Xuanhua He, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou
全色锐化涉及使用更高分辨率的全色图像作为指导，重建低空间分辨率的多光谱图像中丢失的高频信息。尽管与频域有着天生的联系，但现有的全色锐化研究几乎没有研究频域上的潜在解决方案。为此，我们提出了一种用于全色锐化的新颖的频率自适应专家混合 FAME 学习框架，该框架由三个关键组件组成：自适应频率分离预测模块、子频率学习专家模块和专家混合模块。具体来说，第一个利用离散余弦变换通过预测频率掩模来执行频率分离。在生成的掩模的基础上，具有低频MOE和高频MOE的第二个考虑到能够实现有效的低频和高频信息重建。接下来，最终的融合模块动态地对高频和低频 MOE 知识进行加权，以适应具有显着内容变化的遥感图像。对多个数据集的定量和定性实验表明，我们的方法比其他最先进的方法表现最好，并且对现实世界场景具有强大的泛化能力。

Marginal Debiased Network for Fair Visual Recognition
Authors Mei Wang, Weihong Deng, Sen Su
深度神经网络 DNN 通常容易学习目标类别与偏差属性（如性别和种族）之间的虚假相关性，这些偏差属性存在于训练数据偏差对齐样本的主要部分中，从而表现出不公平的行为，并在现代多元化和平等主义社会中引起争议。在本文中，我们提出了一种新颖的边际去偏网络 MDN 来学习去偏表示。更具体地说，边际softmax损失MSL是通过在公平问题中引入边际惩罚的思想来设计的，它为没有虚假相关性的偏差冲突样本数据分配比偏差对齐数据更大的边际，从而淡化虚假相关性并改善无偏测试标准的概括。为了确定利润，我们的 MDN 通过元学习框架进行了优化。我们提出了一种元均衡损失 MEL 来感知模型的公平性，并通过元优化自适应地更新边际参数，这要求由最佳边际指导的训练模型应最小化在无偏元验证集上计算的 MEL。

GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion Generation
Authors Xuehao Gao, Yang Yang, Zhenyu Xie, Shaoyi Du, Zhongqian Sun, Yang Wu
在本文中，我们提出了一种新颖的基于级联扩散的文本驱动人体运动合成生成框架，该框架采用了一种名为 GradUally Enriching SyntheSis GUESS 的策略（缩写为 GradUally Enriching SyntheSis GUESS）。该策略通过将语义接近的详细骨架的身体关节分组在一起，然后用单个身体部位节点替换每个这样的关节组来设置生成目标。这样的操作以多个粒度级别递归地将人体姿势抽象为越来越粗的骨骼。随着抽象层次的逐渐提高，人体运动变得越来越简洁和稳定，这对跨模态运动合成任务有显着的好处。然后，整个文本驱动的人体运动合成问题被分为多个抽象级别，并使用具有级联潜在扩散模型的多级生成框架来解决，初始生成器首先根据给定的文本描述生成最粗略的人体运动猜测，然后，一系列连续的生成器根据文本描述和之前的合成结果逐渐丰富运动细节。值得注意的是，我们进一步将 GUESS 与所提出的动态多条件融合机制相结合，以动态平衡给定文本条件和不同生成阶段的合成粗运动提示的协作效果。对大规模数据集进行的大量实验证实，GUESS 在准确性、真实性和多样性方面大幅优于现有的最先进方法。

Bayesian Intrinsic Groupwise Image Registration: Unsupervised Disentanglement of Anatomy and Geometry
Authors Xinzhe Luo, Xin Wang, Linda Shapiro, Chun Yuan, Jianfeng Feng, Xiahai Zhuang
本文提出了用于医学图像多模态分组配准的通用贝叶斯学习框架。该方法建立在图像生成过程的概率建模的基础上，其中观察到的图像的潜在常见解剖结构和几何变化被明确地分解为潜在变量。因此，通过贝叶斯推理的解决方案实现了分组配准。我们提出了一种新颖的分层变分自动编码架构来实现潜在变量的推理过程，其中配准参数可以以数学上可解释的方式计算。值得注意的是，这种新范例可以在无监督的闭环自重建过程中学习分组配准，从而减轻了设计复杂的基于强度的相似性度量的负担。计算高效的解缠结架构本质上也是可扩展和灵活的，允许对具有可变大小的大规模图像组进行分组配准。此外，从解纠缠学习中推断出的结构表示能够利用视觉语义捕获观察结果的潜在解剖结构。进行了大量的实验来验证所提出的框架，包括来自心脏、大脑和腹部医学图像的四个数据集。

Explore Human Parsing Modality for Action Recognition
Authors Jinfu Liu, Runwei Ding, Yuhang Wen, Nan Dai, Fanyang Meng, Shen Zhao, Mengyuan Liu
基于多模态的动作识别方法使用姿势和 RGB 模态取得了巨大成功。然而，骨架序列缺乏外观描述，并且 RGB 图像由于模态限制而遭受不相关的噪声。为了解决这个问题，我们引入人体解析特征图作为一种新颖的模式，因为它可以选择性地保留身体部位的有效语义特征，同时过滤掉最不相关的噪声。我们提出了一个新的双分支框架，称为 Ensemble Human Parsing and Pose Network EPP Net ，它是第一个利用骨架和人体解析模式进行动作识别的框架。第一个人体姿势分支在图卷积网络中提供强大的骨架来对姿势特征进行建模，而第二个人体解析分支还利用描述性解析特征图通过卷积主干对解析特征进行建模。这两个高级特征将通过后期融合策略有效地结合起来，以实现更好的动作识别。 NTU RGB D 和 NTU RGB D 120 基准的大量实验一致验证了我们提出的 EPP Net 的有效性，它优于现有的动作识别方法。

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment
Authors Ziping Ma, Furong Xu, Jian Liu, Ming Yang, Qingpei Guo
语言与视觉的多模态对齐是当前视觉语言模型研究的基础课题。 Contrastive Captioners CoCa 作为一种代表性方法，将对比语言图像预训练 CLIP 和图像字幕 IC 集成到一个统一的框架中，取得了令人印象深刻的结果。 CLIP 对整个图像和句子的全局表示施加双向约束。尽管 IC 在局部表示上进行单向图像到文本生成，但它对局部文本到图像重建缺乏任何约束，这限制了与文本对齐时在细粒度级别理解图像的能力。为了从全局和局部角度实现多模态对齐，本文提出了对称对比字幕 SyCoCa，它引入了跨全局和局部表示级别的图像和文本的双向交互。具体来说，我们在 ITC 和 IC 头的基础上扩展了文本引导掩模图像建模 TG MIM 头。改进后的 SyCoCa 可以进一步利用文本线索来重建上下文图像和视觉线索来预测文本内容。当实现双向本地交互时，图像的本地内容往往是混乱的或与其文本描述无关。因此，我们采用细心的掩蔽策略来选择有效的图像块进行交互。

Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance
Authors Jiacheng Wang, Ping Liu, Wei Xu
现有的文本到图像编辑方法往往在刚性或非刚性编辑方面表现出色，但在将两者结合时遇到挑战，导致输出与所提供的文本提示不对齐。此外，集成参考图像以进行控制仍然具有挑战性。为了解决这些问题，我们提出了一个多功能图像编辑框架，能够在文本提示或参考图像的指导下执行刚性和非刚性编辑。我们利用双路径注入方案来处理不同的编辑场景，并引入集成的自注意力机制来融合外观和结构信息。为了减轻潜在的视觉伪影，我们进一步采用潜在融合技术来调整中间潜在。与以前的工作相比，我们的方法在实现精确和多功能图像编辑方面取得了重大进步。

Source-Free Online Domain Adaptive Semantic Segmentation of Satellite Images under Image Degradation
Authors Fahim Faisal Niloy, Kishor Kumar Bhaumik, Simon S. Woo
卫星图像分割中分布变化的在线适应是一个至关重要但尚未得到充分探索的问题。在本文中，我们解决了卫星图像的无源在线域适应问题，即测试时间适应 TTA ，重点是减轻各种形式的图像退化引起的分布变化。为了实现这一目标，我们提出了一种新颖的 TTA 方法，涉及两种有效的策略。首先，我们使用传入数据流逐步估计目标分布的全局 Batch Normalization BN 统计数据。在推理过程中利用这些统计数据能够有效地减少域间隙。此外，我们通过使用全局类中心细化预测掩模来提高预测质量。两种策略都采用动态动量来实现快速稳定的收敛。值得注意的是，我们的方法无需反向传播，因此快速且轻量级，使其非常适合动态适应新领域。

Significance of Anatomical Constraints in Virtual Try-On
Authors Debapriya Roy, Sanchayan Santra, Diganta Mukherjee, Bhabatosh Chanda
Virtual Try ON VTON 系统允许用户虚拟试用产品。一般来说，VTON 系统采用服装源和人物图像来预测该人穿着给定服装的试穿输出。尽管现有方法对于简单姿势表现良好，但在弯曲或交叉双臂姿势的情况下，或者当源衣服的对齐与目标人的姿势之间存在显着差异时，这些方法会因生成不准确的衣服变形而失败。在采用基于薄板样条 TPS 的服装变换的 VTON 方法中，这主要由于两个原因而发生： 1 TPS 的二阶平滑度约束限制了物平面的弯曲。 2 不同服装部分之间的重叠（例如袖子和躯干）无法通过单个 TPS 变换进行建模，因为它假设服装为单个平面对象，因此忽略了不同服装部分运动的独立性。为此，我们做出了两大贡献。关于 TPS 的弯曲限制，我们提出了人体解剖感知几何 ATAG 转换。关于重叠问题，我们提出了一种基于部分的翘曲方法，将衣服分成独立的可翘曲部分，分别翘曲它们，然后将它们组合起来。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战，并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中，我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练，这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习，并在可用时从精心策划的标签中学习，从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述，而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

Preserving Image Properties Through Initializations in Diffusion Models
Authors Jeffrey Zhang, Shao Yu Chang, Kedan Li, David Forsyth
零售摄影对图像提出了特定的要求。例如，图像可能需要统一的背景颜色、一致的模型姿势、居中的产品和一致的照明。与这些标准的微小偏差都会影响网站的美感，使图像不适合使用。我们表明，目前应用的稳定扩散方法不符合这些要求。使用噪声非常大的图像训练降噪器并使用纯噪声样本开始推理的通常做法会导致推理过程中生成的图像不一致。出现这种不一致的原因是很容易区分训练分布和推理分布的样本之间的差异。因此，使用具有统一背景的居中零售产品图像进行训练的网络会生成具有不稳定背景的图像。通过使用来自噪声图像近似值的样本初始化推理，可以轻松解决该问题。然而，在使用这种近似时，推理时文本和噪声图像的联合分布与训练时的联合分布仍然略有不同。通过使用近似噪声图像分布的样本训练网络来纠正这种差异。对实际应用数据进行的大量实验表明，采用这些过程在性能上取得了显着的定性和定量改进。

Federated Class-Incremental Learning with Prototype Guided Transformer
Authors Haiyang Guo, Fei Zhu, Wenzhuo Liu, Xu Yao Zhang, Cheng Lin Liu
现有的联邦学习方法有效解决了涉及数据隐私和非独立同分布数据场景下的去中心化学习。然而，在现实世界中，每个客户端动态学习新类，要求全局模型保持对新旧类的区分能力。为了有效减轻低通信成本下灾难性遗忘和数据异构性的影响，我们设计了一种简单有效的方法，称为PLoRA。一方面，我们采用原型学习来学习更好的特征表示，并利用原型和类特征之间的启发式信息设计原型重新权重模块，以解决由数据异构性引起的分类器偏差，而无需重新训练分类层。另一方面，我们的方法利用预先训练的模型作为骨干，并在学习新类别时利用 LoRA 用少量参数进行微调。此外，PLoRA不依赖于基于相似性的模块选择策略，从而进一步减少了通信开销。标准数据集的实验结果表明，我们的方法显着优于最先进的方法。更重要的是，我们的方法在各种场景和数据异构程度下都表现出很强的鲁棒性和优越性。

Leveraging SAM for Single-Source Domain Generalization in Medical Image Segmentation
Authors Hanhui Wang, Huaize Ye, Yi Xia, Xueyan Zhang
域泛化 DG 旨在减少域之间的域转移，以在不可见的目标域上实现有希望的性能，这已在医学图像分割中得到广泛实践。单源域泛化 SDG 是仅在一个源域上进行训练的最具挑战性的设置。尽管现有方法在医学图像分割的SDG方面取得了长足的进步，但在面对较大的域偏移时，其性能仍远未达到适用标准。在本文中，我们利用Segment Anything Model SAM to SDG来大大提高泛化能力。具体来说，我们引入了一个并行框架，将源图像分别发送到SAM模块和普通分割模块。为了减少计算资源，我们在将图像发送到 SAM 模块之前应用合并策略。我们从分割模块中提取边界框，并将精炼版本作为提示发送到 SAM 模块。我们在经典的 DG 数据集上评估我们的模型，并与其他最先进的 DG 方法相比取得了有竞争力的结果。此外，我们进行了一系列的消融实验来证明所提出方法的有效性。

Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video Captioning
Authors Sikiru Adewale, Tosin Ige, Bolanle Hafiz Matti
这项工作演示了编码器解码器模型的实现和使用，以执行视频数据到文本字幕的多对多映射。多对多映射通过视频帧的输入时间序列到单词的输出序列来形成字幕句子。讨论了数据预处理、模型构建和模型训练。字幕正确性是使用数据集不同分区的 2 克 BLEU 分数来评估的。显示了输出字幕的具体示例，以证明模型在视频时间维度上的通用性。研究表明，即使在视频场景发生巨大变化的情况下，预测字幕也能概括视频动作。

Generalizable vision-language pre-training for annotation-free pathology localization
Authors Hao Yang, Hong Yu Zhou, Cheng Li, Weijian Huang, Jiarun Liu, Shanshan Wang
从医学图像中自动定位病理有助于了解疾病的出现和进展，这种能力可以极大地有益于临床诊断。然而，现有的深度学习模型严重依赖专家注释，缺乏开放临床环境下的泛化能力。在本研究中，我们提出了一种用于无注释病理学定位 AFLoc 的通用视觉语言预训练模型。 AFLoc 的核心优势在于其基于无图像注释的多级语义结构的对比学习，它全面对齐来自具有丰富图像特征的报告的多粒度医学概念，以适应观察到的和新出现的看不见的病理的多样化表达。我们在 4 个不同的外部数据集（涵盖 11 种胸部病理类型）中进行了广泛的实验验证，以验证其泛化能力。

Efficient Cloud-edge Collaborative Inference for Object Re-identification
Authors Chuanming Wang, Yuxin Yang, Mengshi Qi, Huadong Ma
目前的物体重新识别ReID系统遵循集中式处理范式，即所有计算都在云端服务器中进行，边缘设备仅用于捕获和发送图像。随着视频数量的快速增加，由于计算资源有限，这种范例已经变得不切实际。在这种场景下，ReID系统应该进行转换以适应云边缘协同处理范式，这对于提高ReID系统的可扩展性和实用性至关重要。然而，目前的相关工作缺乏对此问题的研究，使得ReID方法的有效适应面临挑战。因此，我们开创了用于ReID系统的云边缘协同推理框架，特别提出了一种分布感知相关性建模网络DaCM，通过学习对实例之间的时空相关性进行建模，使所需的图像尽快返回到云服务器。 DaCM将时间戳中隐式包含的时空相关性嵌入到图结构中，它可以分别应用于云端调节上传窗口的大小和边缘设备上调整图像的顺序。传统的 ReID 方法可以与 DaCM 无缝结合，使其能够在我们提出的边缘云协作框架中应用。大量的实验表明，我们的方法明显减少了传输开销并显着提高了性能。

DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection
Authors Yunfan Ye, Kai Xu, Yuhang Huang, Renjiao Yi, Zhiping Cai
受编码器解码器架构的限制，基于学习的边缘检测器通常难以预测同时满足正确性和清晰度的边缘图。随着扩散概率模型 DPM 最近的成功，我们发现它特别适合精确和清晰的边缘检测，因为去噪过程直接应用于原始图像尺寸。因此，我们提出了第一个用于一般边缘检测任务的扩散模型，我们称之为 DiffusionEdge。为了在保留最终性能的同时避免昂贵的计算资源，我们在潜在空间中应用DPM，并启用像素级不确定性感知的经典交叉熵损失，以蒸馏方式直接优化潜在空间中的参数。我们还采用解耦架构来加速去噪过程，并提出相应的自适应傅立叶滤波器来调整特定频率的潜在特征。通过所有的技术设计，DiffusionEdge 可以用有限的资源进行稳定的训练，用更少的增强策略来预测清晰准确的边缘图。对四个边缘检测基准的大量实验证明了 DiffusionEdge 在正确性和清晰度方面的优越性。在 NYUDv2 数据集上，与第二好的数据集相比，我们将 ODS、无后处理的 OIS 和 AC 分别增加了 30.2、28.1 和 65.1。

Spy-Watermark: Robust Invisible Watermarking for Backdoor Attack
Authors Ruofei Wang, Renjie Wan, Zongyu Guo, Qing Guo, Rui Huang
后门攻击的目的是在面对后门实例时欺骗受害者模型，同时保持其在良性数据上的性能。当前的方法使用手动模式或特殊扰动作为触发器，而它们往往忽略了针对数据损坏的鲁棒性，使得后门攻击在实践中易于防御。为了解决这个问题，我们提出了一种名为 Spy Watermark 的新型后门攻击方法，该方法在面临数据崩溃和后门防御时仍然有效。其中，我们引入了嵌入图像潜在域中的可学习水印，作为触发器。然后，我们寻找在图像解码过程中能够承受崩溃的水印，与多个抗崩溃操作配合，进一步增强我们的触发器对数据损坏的恢复能力。

Improving Diffusion-Based Image Synthesis with Context Prediction
Authors Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
扩散模型是一类新型的生成模型，极大地促进了图像生成，具有前所未有的质量和多样性。现有的扩散模型主要尝试从损坏的图像中重建输入图像，并沿空间轴具有像素级或特征级约束。然而，这种基于点的重建可能无法使每个预测像素特征完全保留其邻域上下文，从而损害基于扩散的图像合成。作为自动监督信号的强大来源，上下文已经被广泛研究用于学习表征。受此启发，我们首次提出 ConPreDiff 来通过上下文预测来改进基于扩散的图像合成。我们明确地强化每个点以预测其邻域上下文，即在训练阶段的扩散去噪块末尾使用上下文解码器的多步幅特征标记像素，并删除解码器进行推理。通过这种方式，每个点都可以通过保留其与邻域上下文的语义联系来更好地重建自身。 ConPreDiff 的这种新范例可以推广到任意离散和连续扩散主干，而无需在采样过程中引入额外的参数。在无条件图像生成、文本到图像生成和图像修复任务上进行了大量实验。

GPS-SSL: Guided Positive Sampling to Inject Prior Into Self-Supervised Learning
Authors Aarash Feizi, Randall Balestriero, Adriana Romero Soriano, Reihaneh Rabbany
我们提出了引导正采样自监督学习 GPS SSL，这是一种将先验知识注入自监督学习 SSL 正样本选择中的通用方法。当前的 SSL 方法利用数据增强 DA 来生成正样本，并结合先验知识，不正确或太弱的 DA 将大大降低学习表示的质量。 GPS SSL 建议设计一个度量空间，其中欧几里得距离成为语义关系的有意义的代理。在该空间中，现在可以从最近邻采样生成正样本。现在，任何先验知识都可以独立于所使用的 DA 嵌入到该度量空间中。由于其简单性，GPS SSL 适用于任何 SSL 方法，例如SimCLR 或 BYOL。 GPS SSL 的一个主要优点是减轻了定制强大 DA 的压力。例如，GPS SSL 在 DA 较弱的 Cifar10 上达到 85.58，而基线仅达到 37.51。因此，我们朝着减少 SSL 对 DA 依赖的目标又迈进了一步。我们还表明，即使使用强大的 DA，GPS SSL 也优于所研究领域的基线。当模型使用强或最小的数据增强时，我们在来自不同领域的大量下游数据集上评估 GPS SSL 以及多个基线 SSL 方法。

AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance
Authors Joao P. C. Bertoldo, Dick Ameln, Ashwin Vaidya, Samet Ak ay
视觉异常检测研究的最新进展表明，MVTec 和 VisA 等公共基准数据集上的 AUROC 和 AUPRO 分数趋向于完美召回，给人的印象是这些基准已接近解决。然而，高 AUROC 和 AUPRO 分数并不总是反映定性性能，这限制了这些指标在实际应用中的有效性。我们认为，由于缺乏足够的评估指标而施加的人为上限限制了该领域的进步，因此我们重新审视用于评估我们的算法的评估指标至关重要。作为回应，我们引入了 Per IMage Overlap PIMO，这是一种解决 AUROC 和 AUPRO 缺点的新颖指标。 PIMO 保留了现有指标的基于召回的性质，但引入了两个区别：曲线的分配和曲线下的相应区域是每个图像的，并且其 X 轴仅依赖于正常图像。测量每个图像的召回率简化了实例分数索引，并且对噪声注释更加鲁棒。正如我们所展示的，它还可以加速计算并允许使用统计测试来比较模型。通过对正常图像施加低误报容忍度，PIMO 提供了增强的模型验证程序，并突出显示了数据集之间的性能差异。我们的实验表明，PIMO 提供了实际优势和细致入微的性能见解，重新定义了异常检测基准，特别挑战了 MVTec AD 和 VisA 数据集已通过当代模型解决的看法。

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers
Authors Aleksandar Stani , Sergi Caelles, Michael Tschannen
视觉推理以端到端神经网络为主，可扩展到数十亿个模型参数和训练示例。然而，即使是最大的模型，在组合推理、泛化、细粒度空间和时间推理以及计数方面也遇到了困难。原则上，使用大型语言模型法学硕士作为控制器的视觉推理可以通过分解任务并通过编排一组视觉工具来解决子任务来解决这些限制。最近，这些模型在组合视觉问答、视觉基础和视频时间推理等任务上取得了出色的性能。然而，就目前的形式而言，这些模型严重依赖于提示中上下文示例的人类工程，这些示例通常是特定于数据集和任务的，并且需要高技能程序员的大量工作。在这项工作中，我们提出了一个框架，通过引入空间和时间抽象例程并利用少量标记示例自动生成上下文示例，从而避免人工创建上下文示例，从而缓解这些问题。

FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding
Authors Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li
精确感知现实世界 3D 对象的几何和语义属性对于增强现实和机器人应用的持续发展至关重要。为此，我们提出了 algfull algname ，它将基础模型的视觉语言嵌入合并到 3D Gaussian Splatting GS 中。这项工作的关键贡献是一种重建和表示 3D 视觉语言模型的有效方法。这是通过将基于图像的基础模型生成的特征图提炼为从 3D 模型渲染的特征图来实现的。为了确保高质量渲染和快速训练，我们通过集成 GS 和多分辨率哈希编码 MHE 的优势，引入了一种新颖的场景表示。我们有效的训练过程还引入了像素对齐损失，使得相同语义实体的渲染特征距离接近，遵循像素级语义边界。我们的结果展示了显着的多视图语义一致性，促进了不同的下游任务，在基于开放词汇语言的对象检测上，以 mathbf 10.2% 的速度击败了最先进的方法，尽管我们的推理速度快了 851 倍。这项研究探索了视觉、语言和 3D 场景表示的交叉点，为增强不受控制的现实世界环境中的场景理解铺平了道路。

Instruct-Imagen: Image Generation with Multi-modal Instruction
Authors Hexiang Hu, Kelvin C.K. Chan, Yu Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming Wei Chang, Xuhui Jia
本文提出了 instruct imagen，这是一种处理异构图像生成任务并泛化未见过的任务的模型。我们引入了用于图像生成的多模态指令，这是一种精确阐明一系列生成意图的任务表示。

Can We Generate Realistic Hands Only Using Convolution?
Authors Mehran Hosseini, Peyman Hosseini
图像生成模型始终无法重新创建复杂的几何特征，例如人手和手指中存在的几何特征，这一直是近十年来图像生成中持续存在的问题。虽然通过增加模型大小和多样化训练数据集取得了长足的进步，但这个问题在所有模型中仍然普遍存在，从去噪扩散模型到生成对抗网络 GAN，这表明了底层架构的根本缺陷。在本文中，我们演示了如何通过为卷积层提供包含相对 n 维笛卡尔坐标系的单个输入通道来增强卷积层的几何功能，从而缓解这个问题。

Unsupervised Object-Centric Learning from Multiple Unspecified Viewpoints
Authors Jinyang Yuan, Tonglin Chen, Zhimeng Shen, Bin Li, Xiangyang Xue
视觉场景极其多样化，不仅因为物体和背景的组合有无限种可能，还因为随着视点的变化，对同一场景的观察可能会有很大差异。当从多个视点观察多对象视觉场景时，人类可以从每个视点组合地感知场景，同时实现跨不同视点的所谓对象恒常性，即使确切的视点未知。这种能力对于人类在移动时识别同一物体以及有效地从视觉中学习至关重要。设计具有类似能力的模型是很有趣的。在本文中，我们考虑了在不使用任何监督的情况下从多个未指定（即未知且不相关的视点）学习组合场景表示的新问题，并提出了一种深度生成模型，该模型将潜在表示分为独立于视点的部分和视点相关的部分来解决这个问题问题。在推理过程中，通过将不同视点的信息与神经网络集成，潜在表示被随机初始化和迭代更新。

Distilling Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection
Authors Haowen Zheng, Dong Cao, Jintao Xu, Rui Ai, Weihao Gu, Yang Yang, Yanyan Liang
在精度和效率之间取得平衡是鸟瞰 BEV 3D 物体检测的一个突出挑战。尽管之前基于相机的 BEV 方法通过结合长期时间信息取得了显着的性能，但大多数仍然面临效率低下的问题。一种潜在的解决方案是知识蒸馏。现有的蒸馏方法只关注重建空间特征，而忽视了时间知识。为此，我们提出了 TempDistiller，一种时间知识蒸馏器，在提供有限数量的帧时从教师检测器获取长期记忆。具体来说，通过应用于特征教师的自注意力操作整合长期时间知识来制定重建目标。随后，通过生成器为被屏蔽的学生特征生成新特征。最终，我们利用这个重建目标来重建学生特征。此外，我们还在为学生模型输入全帧时探索时间关系知识。我们在 nuScenes 基准上验证了所提出方法的有效性。

Shrinking Your TimeStep: Towards Low-Latency Neuromorphic Object Recognition with Spiking Neural Network
Authors Yongqi Ding, Lin Zuo, Mengmeng Jing, Pei He, Yongjun Xiao
使用尖峰神经网络 SNN 进行神经形态对象识别是低功耗神经形态计算的基石。然而，现有的 SNN 存在显着的延迟，需要使用 10 到 40 个或更多的时间步来识别神经形态对象。在低延迟时，现有 SNN 的性能会急剧下降。在这项工作中，我们提出了 Shrinking SNN SSNN，以在不降低性能的情况下实现低延迟神经形态对象识别。具体来说，我们通过将 SNN 分为多个阶段并逐渐缩小时间步长来减轻 SNN 中的时间冗余，从而显着降低推理延迟。在时间步收缩期间，时间变换器平滑地变换时间尺度并最大程度地保留信息。此外，我们在训练期间向 SNN 添加了多个早期分类器，以减轻代理梯度与真实梯度之间的不匹配以及梯度消失爆炸，从而消除低延迟时的性能下降。在神经形态数据集、CIFAR10 DVS、N Caltech101 和 DVS Gesture 上进行的大量实验表明，SSNN 能够将基线精度提高 6.55 21.41 。只需 5 个平均时间步长且无需任何数据增强，SSNN 就能在 CIFAR10 DVS 上达到 73.63 的准确率。

Backdoor Attack on Unpaired Medical Image-Text Foundation Models: A Pilot Study on MedCLIP
Authors Ruinan Jin, Chun Yin Huang, Chenyu You, Xiaoxiao Li
近年来，基础模型 FM 已经巩固了其作为深度学习领域基石进步的作用。通过从大量数据集中提取复杂的模式，这些模型在一系列下游任务中始终如一地实现最先进的结果，而所有这些都不需要大量的计算资源。值得注意的是，MedCLIP 是一种基于视觉语言对比学习的医学 FM，它是使用不成对的图像文本训练来设计的。虽然医疗领域经常采用不成对的训练来放大数据，但对与这种方法相关的潜在安全问题的探索并没有跟上其实际使用的步伐。值得注意的是，不配对训练固有的增强能力也表明，微小的标签差异可能会导致显着的模型偏差。在本研究中，我们将这种标签差异视为后门攻击问题。我们进一步分析其对整个 FM 供应链中医疗 FM 的影响。我们的评估主要围绕 MedCLIP，它是采用不配对策略的医学 FM 的象征。我们首先探索 MedCLIP 中源自未配对图像文本匹配的漏洞（称为 BadMatch）。 BadMatch 是使用一组适度的错误标记数据来实现的。随后，我们通过 BadDist 辅助 BadMatch，在干净数据和有毒数据的嵌入之间引入不良距离，从而扰乱 MedCLIP 的对比学习。此外，与 BadMatch 和 BadDist 相结合，攻击管道能够持续抵御跨不同模型设计、数据集和触发器的后门攻击。

LLM Augmented LLMs: Expanding Capabilities through Composition
Authors Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar
具有数十亿参数的基础模型已经在大型数据集上进行了训练，已经在各个领域展示了不平凡的技能。然而，由于它们的整体结构，增强它们或传授新技能具有挑战性且成本高昂。另一方面，由于它们的适应能力，这些模型的几个新实例正在针对新领域和任务进行训练。在这项工作中，我们研究了现有基础模型与更具体模型的高效实用组合问题，以实现更新的功能。为此，我们提出了增强语言模型的 CALM 组合，它引入了模型之间的交叉注意力来组合它们的表示并启用新的功能。 CALM 的显着特征是 i 通过重新使用现有的 LLM 以及一些附加参数和数据来扩展 LLM 在新任务上的规模，ii 现有模型权重保持不变，从而保留现有功能，以及 iii 适用于不同的领域和设置。我们证明，使用在低资源语言上训练的较小模型来增强 PaLM2 S 可以在翻译成英语和低资源语言的算术推理等任务上获得高达 13 的绝对改进。

A novel method to enhance pneumonia detection via a model-level ensembling of CNN and vision transformer
Authors Sandeep Angara, Nishith Reddy Mannuru, Aashrith Mannuru, Sharath Thirunagaru
肺炎仍然是全世界发病和死亡的主要原因。胸部 X 射线 CXR 成像是一种基本的诊断工具，但传统分析依赖于时间密集的专家评估。最近，深度学习在 CXR 自动化肺炎检测方面显示出巨大潜力。本文探讨应用神经网络来改进基于 CXR 的肺炎诊断。我们通过模型级集成开发了一种融合卷积神经网络 CNN 和视觉 Transformer 网络的新颖模型。我们的融合架构结合了 ResNet34 变体和多轴视觉 Transformer 小模型。两个基本模型均使用 ImageNet 预训练权重进行初始化。输出层被移除，并在最终分类之前使用平坦层组合特征。实验使用 Kaggle 小儿肺炎数据集，其中包含 1,341 张正常图像和 3,875 张肺炎 CXR 图像。我们使用相同的训练程序将我们的模型与独立的 ResNet34、Vision Transformer 和 Swin Transformer Tiny 基线模型进行了比较。采用了广泛的数据增强、Adam 优化、学习率预热和衰减。融合模型达到了 94.87 的最先进准确率，超过了基线。我们还获得了出色的敏感性、特异性、kappa 评分和阳性预测值。混淆矩阵分析证实错误分类较少。 ResNet34 和 Vision Transformer 的组合使得能够从 CNN 和 Transformer 范式中联合学习强大的特征。

Nodule detection and generation on chest X-rays: NODE21 Challenge
Authors Ecem Sogancioglu, Bram van Ginneken, Finn Behrendt, Marcel Bengs, Alexander Schlaefer, Miron Radu, Di Xu, Ke Sheng, Fabien Scalzo, Eric Marcus, Samuele Papa, Jonas Teuwen, Ernst Th. Scholten, Steven Schalekamp, Nils Hendrix, Colin Jacobs, Ward Hendrix, Clara I S nchez, Keelin Murphy
肺结节可能是肺癌的早期表现，肺癌是男性和女性癌症相关死亡的主要原因。大量研究表明，深度学习方法可以在胸部 X 光检查中的肺结节检测中产生高性能水平。然而，缺乏黄金标准公共数据集会减慢研究的进展，并阻碍对该任务的方法进行基准测试。为了解决这个问题，我们组织了一项公共研究挑战赛 NODE21，旨在检测和生成胸部 X 射线中的肺结节。虽然检测轨迹评估最先进的结节检测系统，但生成轨迹确定结节生成算法的效用，以增强训练数据，从而提高检测系统的性能。

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
Authors Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai Kit Yeung
大型语言模型法学硕士已经展示了作为通用助理回答各种查询的强大能力。连续多模态大语言模型MLLM赋予LLM感知视觉信号的能力。 GPT 4 生成式预训练 Transformer 的推出引起了研究界的极大兴趣。 GPT 4V ison 作为新一代人工智能的焦点，在学术界和工业领域都展现了强大的力量。尽管 GPT 4V 取得了巨大成功，但在特定领域分析（例如需要特定领域知识和专业知识的海洋分析）中探索 MLLM 却很少受到关注。在本研究中，我们对利用 GPT 4V 进行海洋分析进行了初步和全面的案例研究。本报告对现有GPT 4V进行了系统评估，评估了GPT 4V在海洋研究方面的表现，并为MLLM的未来发展制定了新标准。 GPT 4V的实验结果表明，GPT 4V产生的响应还远远不能满足海洋专业领域的特定要求。

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
Authors Zipeng Fu, Tony Z. Zhao, Chelsea Finn
从人类演示中进行的模仿学习在机器人技术中表现出了令人印象深刻的表现。然而，大多数结果都集中在桌面操作上，缺乏一般有用任务所需的移动性和灵活性。在这项工作中，我们开发了一种用于模仿需要全身控制的双手移动操作任务的系统。我们首先推出 Mobile ALOHA，这是一种用于数据收集的低成本全身远程操作系统。它通过移动底座和全身远程操作界面增强了 ALOHA 系统。然后，我们使用 Mobile ALOHA 收集的数据执行监督行为克隆，并发现与现有静态 ALOHA 数据集的协同训练可以提高移动操作任务的性能。每项任务进行 50 次演示，协同训练可将成功率提高多达 90 倍，使 Mobile ALOHA 能够自主完成复杂的移动操作任务，例如炒虾和上菜、打开两门壁柜存放沉重的烹饪锅、呼叫并进入电梯，并使用厨房水龙头轻轻冲洗用过的锅。

Spikformer V2: Join the High Accuracy Club on ImageNet with an SNN Ticket
Authors Zhaokun Zhou, Kaiwei Che, Wei Fang, Keyu Tian, Yuesheng Zhu, Shuicheng Yan, Yonghong Tian, Li Yuan
尖峰神经网络 SNN 以其生物学上合理的架构而闻名，但面临着性能有限的挑战。自注意力机制是高性能 Transformer 的基石，也是一种受生物学启发的结构，但现有的 SNN 中不存在这种机制。为此，我们探索了利用 SNN 的自注意力能力和生物学特性的潜力，并提出了一种新型的 Spiking Self Attention SSA 和 Spiking Transformer Spikformer 。 SSA 机制消除了对 softmax 的需求，并使用基于尖峰的查询、键和值来捕获稀疏视觉特征。这种无需乘法的稀疏计算使得SSA高效且节能。此外，我们开发了带有补充卷积层的 Spiking Convolutional Stem SCS，以增强 Spikformer 的架构。使用 SCS 增强的 Spikformer 称为 Spikformer V2。为了训练更大、更深的 Spikformer V2，我们在 SNN 中引入了自监督学习 SSL 的开创性探索。具体来说，我们受主流自监督 Transformer 的启发，采用掩蔽和重建风格对 Spikformer V2 进行预训练，然后在 ImageNet 上的图像分类上对 Spikformer V2 进行微调。大量实验表明 Spikformer V2 优于之前的其他代理训练和 ANN2SNN 方法。 8 层 Spikformer V2 使用 4 个时间步长即可达到 80.38 的精度，而在 SSL 之后，172M 16 层 Spikformer V2 只需 1 个时间步长即可达到 81.10 的精度。据我们所知，这是 SNN 首次在 ImageNet 上达到 80 的准确率。

Diabetic Retinopathy Using Gaussian Filter
Authors Roshan Vasu Muddaluru, Sharvaani Ravikumar Thoguluva, Shruti Prabha, Tanuja Konda Reddy, Dr. Suja P
视网膜是视觉系统的重要组成部分，维持视力取决于及时、正确地发现疾病。这项研究专门针对糖尿病视网膜病变 DR（一种严重的公共健康危害）的早期检测和严重程度分类。我们通过使用不同的图像滤波器（例如高斯滤波器、灰度滤波器和 Gabor 滤波器）来比较不同深度学习模型（例如 InceptionV3、DenseNet121 和其他基于 CNN 的模型）的结果。这些模型可以检测微妙的病理变化，并利用该信息来估计视网膜疾病的风险。目标是通过利用深度学习模型来改进糖尿病视网膜病变（糖尿病相关失明的主要原因）的诊断过程。将灰度、高斯和 Gabor 滤波器应用于视网膜图像后，对这些滤波器进行了比较分析。高斯滤波器成为最有前途的滤波器，为所有模型提供最佳精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com