【AI视野·今日CV 计算机视觉论文速览 第295期】Tue, 23 Jan 2024

379 篇文章 70 订阅
286 篇文章 54 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 23 Jan 2024
Totally 134 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Exploring Simple Open-Vocabulary Semantic Segmentation
Authors Zihang Lai
开放词汇语义分割模型旨在从一组任意开放词汇文本中准确地将语义标签分配给图像中的每个像素。为了学习这种像素级对齐,当前的方法通常依赖于图像级 VL 模型的组合,例如CLIP、ii 地面实况掩码和 iii 自定义分组编码器。在本文中,我们介绍了 S Seg,这是一种新颖的模型,无需依赖上述任何元素即可实现令人惊讶的强大性能。 S Seg 利用伪掩模和语言来训练 MaskFormer,并且可以从公开的图像文本数据集轻松进行训练。与之前的工作相反,我们的模型直接训练像素级特征和语言对齐。经过训练后,S Seg 可以很好地推广到多个测试数据集,而无需进行微调。此外,S Seg 还具有数据可扩展性以及通过自我训练增强后持续改进的额外优势。

Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical Vision Foundation Models
Authors Chenyu Lian, Hong Yu Zhou, Yizhou Yu, Liansheng Wang
参数高效的微调 PEFT 最初是为了利用预先训练的大型语言模型而开发的,最近已成为在计算机视觉任务上执行迁移学习的有效方法。然而,PEFT 在医学视觉基础模型上的有效性仍不清楚,有待探索。作为概念验证,我们对将 PEFT 应用于胸部放射线摄影基础模型进行了详细的实证研究。具体来说,我们深入研究了 LoRA(一种代表性的 PEFT 方法),并将其与跨三个完善的胸部 X 线照片数据集的两个自监督 X 线摄影基础模型上的全参数微调 FFT 进行比较。我们的结果表明,在使用少于 1 个可调参数的情况下,LoRA 在 18 个迁移学习任务中的 13 个中最多优于 FFT 2.9 个。将 LoRA 与基础模型相结合,我们在一系列数据高效学习任务上建立了最新的技术水平,例如使用 NIH ChestX ray14 上的 1 个标记数据获得 80.6 的 AUROC 分数。我们希望这项研究能够引起社区对使用 PEFT 进行医学成像任务的迁移学习的更多关注。

Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks for Accurate Bangla Sign Language Recognition
Authors Haz Sameen Shahgir, Khondker Salman Sayeed, Md Toki Tahmid, Tanjeem Azwad Zaman, Md. Zarif Ul Alam
深度学习和计算机视觉的最新进展已被成功利用来为各种情况下的边缘化社区提供服务。其中一个领域是手语,它是聋人社区的主要交流方式。然而,到目前为止,大部分研究工作和投资都投入到了美国手语方面,而对资源匮乏的手语尤其是孟加拉手语的研究活动却明显滞后。在这篇研究论文中,我们提出了一个新的单词级孟加拉手语数据集 BdSL40,其中包含超过 40 个单词的 611 个视频,以及两种不同的方法,一种采用 3D 卷积神经网络模型,另一种采用新颖的图神经网络方法来分类BdSL40 数据集。这是第一个关于单词级 BdSL 识别的研究,数据集是使用 1997 年孟加拉手语词典从印度手语 ISL 转录而来的。所提出的 GNN 模型的 F1 分数为 89。该研究强调了 BdSL、西孟加拉手语和 ISL 之间显着的词汇和语义相似性,以及文献中缺乏 BdSL 的词级数据集。

CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
Authors Zhihong Chen, Maya Varma, Jean Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
胸部 X 射线 CXR 是临床实践中最常进行的影像学检查。视觉语言基础模型 FM 开发的最新进展使得执行自动 CXR 解释成为可能,这可以帮助医生进行临床决策并改善患者的治疗结果。然而,开发能够准确解释 CXR 的 FM 具有挑战性,因为 1 医学图像领域中大规模视觉语言数据集的可用性有限,2 缺乏可以捕获医学数据复杂性的视觉和语言编码器,3 缺乏评估用于对 FM 的 CXR 解释能力进行基准测试的框架。在这项工作中,我们通过首先引入 emph CheXinstruct 来解决这些挑战,这是一个由 28 个公开可用数据集组成的大规模指令调整数据集。然后,我们提出 emph CheXagent 一个指令调整的 FM,能够分析和总结 CXR。为了构建 CheXagent,我们设计了一个用于解析放射学报告的临床大语言模型 LLM、一个用于表示 CXR 图像的视觉编码器以及一个连接视觉和语言模式的网络。最后,我们介绍了 emph CheXbench,这是一种新颖的基准,旨在系统地评估 8 个临床相关 CXR 解释任务中的 FM。五位放射专家专家进行的广泛定量评估和定性审查表明,CheXagent 在 CheXbench 任务上的性能优于之前开发的通用和医学领域 FM。此外,为了提高模型透明度,我们对性别、种族和年龄因素进行公平性评估,以突出潜在的绩效差异。

LONEStar: The Lunar Flashlight Optical Navigation Experiment
Authors Michael Krause, Ava Thrasher, Priyal Soni, Liam Smego, Reuben Isaac, Jennifer Nolan, Micah Pledger, E. Glenn Lightsey, W. Jud Ready, John Christian
本文记录了使用星跟踪器 LONEStar 进行的非常成功的月球手电筒光学导航实验的结果。月球手电筒 LF 于 2022 年 12 月发射,是 NASA 资助的一项技术演示任务。在推进系统异常导致无法捕获月球轨道后,LF 被从地月系统喷射到日心空间。 NASA 随后将 LF 的所有权转让给佐治亚理工学院,以执行一项无资金支持的扩展任务,以展示进一步的先进技术目标,包括 LONEStar。从2023年8月12月开始,LONEStar团队进行了光学仪器的轨道校准和多项不同的OPNAV实验。该活动包括处理近 400 张星域、地球和月球以及其他四颗行星水星、火星、木星和土星的图像。 LONEStar 首次仅使用行星光学观测进行了日心导航的轨道演示。

Broiler-Net: A Deep Convolutional Framework for Broiler Behavior Analysis in Poultry Houses
Authors Tahereh Zarrat Ehsan, Seyed Mehdi Mohtavipour
检测禽舍中的异常对于维持鸡的最佳健康状况、最大限度地减少经济损失和提高盈利能力至关重要。本文提出了一种新颖的实时框架,用于分析散养禽舍中鸡的行为以检测异常行为。具体来说,本研究调查了两种显着的异常现象,即不活跃的肉鸡和挤作一团的行为。所提出的框架包括三个关键步骤:1 利用最先进的深度学习模型进行鸡检测,2 使用快速跟踪器模块在连续帧中跟踪单个鸡,3 检测视频流中的异常行为。进行实验研究以评估所提出的算法在准确评估鸡行为方面的功效。结果表明,我们的框架为实时异常检测提供了精确有效的解决方案,有助于及时采取干预措施,以保持鸡的健康并提高家禽养殖场的整体生产力。

Single-View 3D Human Digitalization with Large Reconstruction Models
Authors Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung Levy, Jimei Yang
在本文中,我们介绍了 Human LRM,这是一种单级前馈大型重建模型,旨在从单个图像预测人类神经辐射场 NeRF。我们的方法在使用包含 3D 扫描和多视图捕获的广泛数据集进行训练时表现出卓越的适应性。此外,为了增强模型在野外场景(尤其是遮挡情况下)的适用性,我们提出了一种新策略,通过条件三平面扩散模型将多视图重建提炼为单视图。这种生成扩展解决了从单一视图观察时人体形状的固有变化,并且使得从遮挡图像重建人体全身成为可能。

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
Authors Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
理解和推理空间关系是视觉问答 VQA 和机器人技术的基本能力。虽然视觉语言模型 VLM 在某些 VQA 基准测试中表现出了出色的性能,但它们仍然缺乏 3D 空间推理功能,例如识别物理对象的定量关系(例如距离或大小差异)。我们假设 VLM 空间推理能力有限是由于训练数据中缺乏 3D 空间知识,并旨在通过使用互联网规模的空间推理数据训练 VLM 来解决这个问题。为此,我们提出了一个系统来促进这种方法。我们首先开发了一个自动 3D 空间 VQA 数据生成框架,可在 1000 万张现实世界图像上扩展至 20 亿个 VQA 示例。然后,我们研究训练方案中的各种因素,包括数据质量、训练管道和 VLM 架构。我们的工作是度量空间中第一个互联网规模的 3D 空间推理数据集。通过在此类数据上训练 VLM,我们显着增强了其定性和定量空间 VQA 的能力。最后,我们证明了该 VLM 由于其定量估计能力,在思想链空间推理和机器人技术中解锁了新颖的下游应用。

Semi-supervised segmentation of land cover images using nonlinear canonical correlation analysis with multiple features and t-SNE
Authors Hong Wei, James Xiao, Yichao Zhang, Xia Hong
图像分割是一项聚类任务,其中每个像素都被分配一个聚类标签。遥感数据通常由多个光谱图像组成,其中存在语义上有意义的土地覆盖子区域,与其他源数据(例如激光雷达光检测和测距数据(如果有))共同注册。这表明,为了考虑像素之间的空间相关性,与每个像素相关联的特征向量可以是表示多个频带和适当的局部补丁的向量化张量。类似地,基于像素局部补丁的多种类型的纹理特征也将有利于编码局部统计信息和空间变化,而不必按像素标记大量地面实况,然后训练监督模型,这有时是不切实际的。在这项工作中,通过仅标记少量像素,提出了一种新的半监督分割方法。最初,在所有像素上,在高维特征空间中创建图像数据矩阵。然后,t SNE 将高维数据投影到 3D 嵌入上。通过使用径向基函数作为输入特征,使用标记数据样本作为中心,与输出类标签配对,引入了一种改进的规范相关分析算法,称为 RBF CCA,该算法通过小标记数据集。通过 k 均值聚类算法应用针对完整图像获得的相关典型变量。

Automated facial recognition system using deep learning for pain assessment in adults with cerebral palsy
Authors lvaro Sabater G rriz, F. Xavier Gaya Morey, Jos Mar a Buades Rubio, Cristina Manresa Yee, Pedro Montoya, Inmaculada Riquelme
背景 对患有神经系统疾病的个体,特别是那些自我报告能力有限和面部表情改变的个体进行疼痛评估提出了挑战。现有的措施依赖于护理人员的直接观察,缺乏敏感性和特异性。在脑瘫中,疼痛是一种常见的合并症,可靠的评估方案至关重要。

Out-of-Distribution Detection & Applications With Ablated Learned Temperature Energy
Authors Will LeVine, Benjamin Pikus, Jacob Phillips, Berk Norman, Fernando Amat Gil, Sean Hendryx
随着深度神经网络在高风险领域得到采用,至关重要的是能够识别推理输入何时超出分布 OOD,以便用户在高置信度的情况下能够收到性能和校准可能下降的警报。除许多其他方法外,现有方法使用以下两个分数来实现此目的,而无需对任何先验 OOD 示例进行训练:学习温度和能量分数。在本文中,我们介绍了消融学习温度能量(Ablated LearnedTemperature Energy)或简称 AbeT,这种方法以新颖的方式结合了这些现有方法并进行了有效的修改。由于这些贡献,与最先进的技术相比,AbeT 将所有 ID 和 OOD 数据集测量的分类平均误报率(真阳性率 FPR 95)降低了 35.39,无需多阶段训练网络或需要超参数或测试时间向后传递。我们还提供了关于我们的模型如何学习区分分布中 ID 和 OOD 样本的经验见解,同时仅通过在训练时接触错误分类的 ID 示例来对 ID 样本进行显式训练。最后,我们展示了我们的方法在对象检测和语义分割中识别与 OOD 对象相对应的预测边界框和像素的功效,分别在对象检测中 AUROC 增加了 5.15,FPR 95 减少了 41.48,并且 FPR 95 增加了 41.48。

CloSe: A 3D Clothing Segmentation Dataset and Model
Authors Dimitrije Anti , Garvita Tiwari, Batuhan Ozcomlekci, Riccardo Marin, Gerard Pons Moll
3D 服装建模和数据集在娱乐、动画和数字时尚行业中发挥着至关重要的作用。现有的工作通常缺乏详细的语义理解或使用合成数据集,缺乏现实性和个性化。为了解决这个问题,我们首先引入 CloSe D 一个新颖的大规模数据集,其中包含 3167 次扫描的 3D 服装分割,涵盖 18 个不同的服装类别。此外,我们提出了 CloSe Net,这是第一个基于学习的 3D 服装分割模型,用于从彩色点云进行细粒度分割。 CloSe Net 使用局部点特征、身体服装相关性以及基于服装类别和点特征的注意模块,相对于基线和之前的工作提高了性能。所提出的注意力模块使我们的模型能够先从数据中学习外观和几何相关的服装。我们通过成功分割公开的穿着服装的人数据集,进一步验证了我们方法的有效性。我们还推出了 CloSe T,一种用于细化分割标签的 3D 交互式工具。在持续学习设置中将该工具与 CloSe T 相结合,展示了对现实世界数据的改进概括。

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling
Authors Bruno Korbar, Jaesung Huh, Andrew Zisserman
本文的目标是自动生成字符感知字幕。给定视频和最少量的元数据,我们提出了一种视听方法,可以生成完整的对话记录,具有精确的语音时间戳和已识别的说话角色。关键思想是首先使用视听提示为每个角色选择一组高精度音频样本,然后使用这些样本根据说话者身份对所有语音片段进行分类。值得注意的是,该方法不需要面部检测或跟踪。我们在各种电视情景喜剧中评估了该方法,包括《宋飞正传》、《弗莱泽》和《实习医生风云》。我们预计该系统可用于自动生成字幕,以提高现代流媒体服务上大量视频的可访问性。

Modeling Stereo-Confidence Out of the End-to-End Stereo-Matching Network via Disparity Plane Sweep
Authors Jae Young Lee, Woonghyun Ka, Jaehyun Choi, Junmo Kim
我们提出了一种新颖的立体置信度,可以在各种立体匹配网络的外部进行测量,为基于学习的方法提供成本量的替代输入模式选择,特别是在安全关键系统中。基于视差定义和视差平面扫描的基本概念,所提出的立体置信方法建立在立体图像对中的任何移位都应以视差图中相应的移位量进行更新的思想之上。基于这个想法,所提出的立体置信度方法可以概括为三个方面。 1 使用视差平面扫描,可以获得多个视差图,并将其视为3D体积预测视差体积,就像构建成本体积一样。 2 这些视差图之一充当锚点,使我们能够在每个空间点定义理想或理想的视差轮廓。 3 通过比较所需的和预测的视差分布,我们可以量化左右图像之间的匹配模糊度水平,以进行置信度测量。

Observation-Guided Meteorological Field Downscaling at Station Scale: A Benchmark and a New Method
Authors Zili Liu, Hao Chen, Lei Bai, Wenyuan Li, Keyan Chen, Zhengyi Wang, Wanli Ouyang, Zhengxia Zou, Zhenwei Shi
气象变量降尺度DS涉及从低分辨率气象场获取高分辨率状态,是天气预报中的一项重要任务。先前基于深度学习的方法将降尺度视为计算机视觉中的超分辨率任务,并利用高分辨率网格气象场作为监督来提高特定网格尺度的分辨率。然而,这种方法难以符合气象场的连续分布特征,导致降尺度结果与气象站的实际观测之间存在固有的系统偏差。在本文中,我们将气象降尺度扩展到任意分散的站点尺度,建立全新的基准和数据集,并从粗分辨率气象场中检索任意给定站点位置的气象状态。受数据同化技术的启发,我们将观测数据整合到降尺度过程中,提供多尺度观测先验。在此基础上,我们提出了一种基于超网络架构的新型降尺度模型,即HyperDS,它将不同的观测信息有效地整合到模型训练中,实现了气象领域的连续尺度建模。通过大量的实验,我们提出的方法在多个表面变量上优于其他专门设计的基线模型。值得注意的是,与其他方法相比,风速和表面压力的均方误差 MSE 分别提高了 67 和 19.5。

Feature Denoising Diffusion Model for Blind Image Quality Assessment
Authors Xudong Li, Jingyuan Zheng, Runze Hu, Yan Zhang, Ke Li, Yunhang Shen, Xiawu Zheng, Yutao Liu, ShengChuan Zhang, Pingyang Dai, Rongrong Ji
盲图像质量评估 BIQA 旨在评估符合人类感知的图像质量,无需参考基准。目前,深度学习 BIQA 方法通常依赖于使用高级任务的特征进行迁移学习。然而,BIQA 和这些高级任务之间的固有差异不可避免地会给质量感知功能带来噪音。在本文中,我们迈出了探索 BIQA 中特征去噪的扩散模型的第一步,即 IQA PFD IQA 的感知特征扩散,其目的是从质量感知特征中去除噪声。具体来说,我们提出了一个感知先验发现和聚合模块来建立两个辅助任务,以发现图像中潜在的低级特征,这些特征用于聚合扩散模型的感知文本条件。 ii 我们提出了一种基于感知先验的特征细化策略,它将噪声特征与预定义的去噪轨迹相匹配,然后根据文本条件执行精确的特征去噪。

A Saliency Enhanced Feature Fusion based multiscale RGB-D Salient Object Detection Network
Authors Rui Huang, Qingyi Zhao, Yan Xing, Sihua Gao, Weifeng Xu, Yuxiang Zhang, Wei Fan
多尺度卷积神经网络CNN在解决各种视觉问题方面表现出了卓越的能力。然而,融合不同尺度的特征总是会导致模型尺寸过大,阻碍了多尺度 CNN 在 RGB D 显着性检测中的应用。在本文中,我们提出了一种定制的特征融合模块,称为显着性增强特征融合 SEFF,用于 RGB D 显着性检测。 SEFF 利用相邻尺度的显着性图来增强融合所需的特征,从而产生更具代表性的融合特征。我们的多尺度 RGB D 显着性检测器使用 SEFF 并处理具有三种不同尺度的图像。 SEFF用于融合RGB和深度图像的特征,以及不同尺度的解码器的特征。

Large receptive field strategy and important feature extraction strategy in 3D object detection
Authors Leichao Cui, Xiuxian Li, Min Meng
3D 物体检测的增强对于自动驾驶中精确的环境感知和提高任务执行能力至关重要。激光雷达点云提供准确的深度信息,是实现这一目的的关键信息。我们的研究重点是 3D 目标检测中的关键挑战。为了应对扩展 3D 卷积核感受野的挑战,我们引入了动态特征融合模块 DFFM。该模块实现了 3D 卷积核感受野的自适应扩展,平衡扩展与可接受的计算负载。这一创新减少了操作,扩大了感受野,并允许模型动态调整以适应不同的对象要求。同时,我们识别 3D 特征中的冗余信息。利用特征选择模块FSM定量评估并剔除不重要的特征,实现输出框拟合和特征提取的分离。这项创新使检测器能够专注于关键特征,从而实现模型压缩、减少计算负担并最大限度地减少候选帧干扰。大量实验证实,DFFM 和 FSM 不仅增强了当前的基准测试,特别是在小目标检测方面,而且还提高了网络性能。

Evaluating the Feasibility of Standard Facial Expression Recognition in Individuals with Moderate to Severe Intellectual Disabilities
Authors F. Xavier Gaya Morey, Silvia Ramis, Jose M. Buades Rubio, Cristina Manresa Yee
最近的研究强调了用户越来越倾向于与机器进行类人交互。因此,面部表情识别作为赋予社交机器人辨别用户情绪状态能力的一种手段,具有重要意义。在这项调查中,我们评估了深度学习方法的适用性,该方法以其在该领域的卓越表现而闻名,用于识别智障人士的面部表情,据我们所知,尚未在文献中进行过研究。为了实现这一目标,我们用不同的方法训练了一组十二个不同的卷积神经网络,包括一组没有智障人士的数据集和一个包含智障人士的数据集。我们对各种模型在不同训练条件下取得的结果进行了检查,再加上可解释的人工智能技术促进的表情识别过程中关键面部区域的全面分析,揭示了智力障碍者和非智力障碍者之间面部表情的显着差异。就像智力障碍人士一样。

Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis
Authors Jiawei Wang, Kai Hu, Zhuoyao Zhong, Lei Sun, Qiang Huo
文档结构分析又名文档布局分析对于理解文档的物理布局和逻辑结构至关重要,可应用于信息检索、文档摘要、知识提取等。在本文中,我们专注于层次文档结构分析 HDSA 来探索层次关系使用采用分层模式的创作软件(例如 LaTeX、Microsoft Word 和 HTML)创建的结构化文档中。为了全面分析分层文档结构,我们提出了一种基于树结构的方法,该方法可以同时处理多个子任务,包括页面对象检测 Detect 、识别对象的阅读顺序预测 Order 以及构建预期的分层结构 Construct 。我们基于该框架提出了一个有效的端到端解决方案来展示其性能。为了评估我们的方法,我们开发了一个名为 Comp HRDoc 的综合基准,它同时评估上述子任务。我们的端到端系统在两个大型文档布局分析数据集 PubLayNet 和 DocLayNet、高质量分层文档结构重建数据集 HRDoc 以及我们的 Comp HRDoc 基准上实现了最先进的性能。

SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning
Authors Hao Chen, Jiaze Wang, Ziyu Guo, Jinpeng Li, Donghao Zhou, Bian Wu, Chenyong Guan, Guangyong Chen, Pheng Ann Heng
手语识别 SLR 在促进听力障碍社区的沟通方面发挥着至关重要的作用。 SLR 是一项弱监督任务,整个视频都用注释进行注释,因此很难识别视频片段中相应的注释。最近的研究表明,SLR 的主要瓶颈是由于大规模数据集的可用性有限而导致的训练不足。为了应对这一挑战,我们提出了 SignVTCL,这是一种通过视觉文本对比学习增强的多模态连续手语识别框架,它充分利用了多模态数据的潜力和语言模型的泛化能力。 SignVTCL 同时集成多模态数据视频、关键点和光流来训练统一的视觉主干,从而产生更强大的视觉表示。此外,SignVTCL 包含一种视觉文本对齐方法,结合了注释级别和句子级别对齐,以确保视觉特征和注释在单个注释和句子级别上的精确对应。

Adaptive Fusion of Multi-view Remote Sensing data for Optimal Sub-field Crop Yield Prediction
Authors Francisco Mena, Deepak Pathak, Hiba Najjar, Cristhian Sanchez, Patrick Helber, Benjamin Bischke, Peter Habelitz, Miro Miranda, Jayanth Siddamsetty, Marlon Nuske, Marcela Charfuelan, Diego Arenas, Michaela Vollmer, Andreas Dengel
准确的作物产量预测对于农业决策、帮助农民和行业利益相关者至关重要。然而,这项任务很复杂,取决于多种因素,例如环境条件、土壤特性和管理实践。组合异构数据视图带来了融合挑战,例如识别视图对预测任务的特定贡献。我们提出了一种新颖的多视图学习方法来预测不同作物大豆、小麦、油菜籽以及阿根廷、乌拉圭和德国地区的作物产量。我们的多视图输入数据包括来自 Sentinel 2 卫星的多光谱光学图像和天气数据,作为作物生长季节的动态特征,并辅以土壤特性和地形信息等静态特征。为了有效地融合数据,我们引入了多视图门控融合 MVGF 模型,包括专用视图编码器和门控单元 GU 模块。视图编码器通过学习视图特定表示来处理具有不同时间分辨率的数据源的异构性。这些表示通过加权和自适应地融合。 GU 使用视图表示的串联来计算每个样本的融合权重。 MVGF 模型在子场级别以 10 m 分辨率像素进行训练。我们的评估表明,MVGF 在相同任务上优于传统模型,通过合并所有数据源实现了最佳结果,这与文献中通常的融合结果不同。对于阿根廷来说,MVGF模型在子田产量预测方面达到了0.68的R2值,而在比较田间平均水平的田间评估中,不同国家的R2值达到了0.80左右。

Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI
Authors F. Xavier Gaya Morey, Silvia Ramis Guarinos, Cristina Manresa Yee, Jose M. Buades Rubio
面部表情识别对于人类行为分析至关重要,深度学习使模型能够超越人类。然而,尚不清楚它们模仿人类处理的程度如何。本研究旨在通过比较 12 种不同的网络(包括通用对象分类器和 FER 特定模型)来探索深度神经网络和人类感知之间的相似性。我们采用创新的全局可解释人工智能方法来生成热图,揭示受六种面部表情训练的十二个网络的关键面部区域。我们定量和定性地评估这些结果,将它们与基于弗里森和埃克曼的描述的地面真实掩模进行比较。我们使用 Intersection over Union IoU 和归一化相关系数进行比较。我们生成 72 个热图来突出显示每个表达式和架构的关键区域。定性地讲,与没有预训练的模型相比,经过预训练权重的模型在热图中表现出更多的相似性。具体来说,眼睛和鼻子区域会影响某些面部表情,而嘴巴在所有模型和表情中始终很重要。从数量上看,我们发现平均 IoU 值较低。 0.2702 跨越所有表达式和架构。性能最佳的架构平均为 0.3269,而性能最差的架构平均为 0.2066。使用归一化相关系数构建的树状图揭示了大多数经过预训练的表达模型和未经预训练的模型的两个主要聚类。

A Fair Evaluation of Various Deep Learning-Based Document Image Binarization Approaches
Authors Richin Sukesh, Mathias Seuret, Anguelos Nicolaou, Martin Mayr, Vincent Christlein
文档图像二值化是文档分析领域中重要的预处理步骤。传统的图像二值化技术通常依赖于直方图或局部统计来识别有效阈值来区分图像的不同方面。深度学习技术能够通过学习上下文相关的特征来生成图像的二值化版本,这些特征不易出现文档图像中通常发生的退化错误。近年来,已经开发了许多基于深度学习的方法用于文档二值化。但选择哪一种还没有研究严格比较这些方法。因此,这项工作的重点是在同一评估协议下评估不同的基于深度学习的方法。我们在不同的文档图像二值化竞赛 DIBCO 数据集上对它们进行评估,并获得了非常异构的结果。我们表明,在 DIBCO2013 数据集上进行评估时,DE GAN 模型能够比其他模型表现更好,而 DP LinkNet 在 DIBCO2017 数据集上表现最好。 2 StageGAN 在 DIBCO2018 数据集上表现最好,而 SauvolaNet 在 DIBCO2019 挑战赛上表现优于其他模型。

Rethinking Centered Kernel Alignment in Knowledge Distillation
Authors Zikai Zhou, Yunhang Shen, Shitong Shao, Huanran Chen, Linrui Gong, Shaohui Lin
知识蒸馏已成为弥合大规模模型和轻量级模型之间表示差异的高效方法。流行的方法涉及利用适当的指标来最小化从教师模型提取的知识与学生模型学到的知识之间的分歧或距离。中心核对齐 CKA 广泛用于测量表示相似性,并已应用于多种知识蒸馏方法中。但这些方法比较复杂,未能揭示CKA的本质,无法正确回答如何利用CKA实现简单有效的蒸馏的问题。本文首先提供了一个理论视角来说明 CKA 的有效性,它将 CKA 与最大平均差异 MMD 的上限和常数项解耦。由此,我们提出了一种新颖的以关系为中心的内核对齐 RCKA 框架,该框架实际上在 CKA 和 MMD 之间建立了连接。此外,我们根据每个任务的特点动态定制CKA的应用,与以前的方法相比,计算资源更少,但性能相当。

Symbrain: A large-scale dataset of MRI images for neonatal brain symmetry analysis
Authors Arnaud Gucciardi, Safouane El Ghazouali, Francesca Venturini, Vida Groznik, Umberto Michelucci
本文提出了一个带注释的脑 MRI 图像数据集,旨在推进脑对称性研究领域。磁共振成像 MRI 在分析新生儿大脑对称性方面引起了人们的兴趣,但由于胎儿和成人大脑之间存在巨大的尺寸差异,挑战仍然存在。脑结构 MRI 的分类方法使用尺度和视觉线索来评估半球对称性,这可以通过比较大脑半球和感兴趣的解剖区域来帮助诊断新生儿患者。这项工作使用开发人类连接组项目数据集,提出了一个数据集,其中包含提取为跨选定感兴趣部分的切片的大脑图像,用于临床评估。所有提取的图像都用大脑中线注释。所有提取的图像都用大脑中线注释。假设对称性降低与可能的临床病理直接相关,该数据集可以有助于更精确的诊断,因为它可以用于训练深度学习模型应用,通过计算机视觉从产后婴儿扫描中检测新生儿脑 MRI 异常。此类模型通过识别医学 MRI 图像中潜在的不对称模式来学习识别和分类异常。

Local Agnostic Video Explanations: a Study on the Applicability of Removal-Based Explanations to Video
Authors F. Xavier Gaya Morey, Jose M. Buades Rubio, Cristina Manresa Yee
随着深度学习应用在各个领域的兴起,可解释的人工智能技术变得越来越重要。这些技术旨在更好地理解复杂的黑盒模型并增强用户信任,同时保持较高的学习性能。虽然许多研究都集中在解释计算机视觉中用于图像输入的深度学习模型,但由于时间维度的复杂性,视频解释仍然相对未经探索。在本文中,我们提出了一个用于视频领域局部不可知解释的统一框架。我们的贡模型和数据集。我们讨论视觉数据基于移除的解释过程中涉及的可能性和选择。解释了六种视频解释方法的适应,并与现有方法进行了比较。我们使用自动化指标和基于用户的评估来评估这些方法的性能,结果表明 3D RISE、3D LIME 和 3D Kernel SHAP 优于其他方法。

SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation
Authors Ci Siang Lin, Chien Yi Wang, Yu Chiang Frank Wang, Min Hung Chen
弱监督语义分割 WSSS 旨在使用仅具有图像级监督的训练图像数据来训练分割模型。由于无法获得精确的像素级注释,现有方法通常侧重于通过细化热图等 CAM 来生成用于训练分割模型的伪掩模。然而,生成的热图可能仅捕获目标对象类别或相关联的共现背景的区别图像区域。为了解决这些问题,我们提出了一种用于 WSSS SemPLeS 框架的语义提示学习,该框架学习有效地提示 CLIP 空间,以增强分割区域和目标对象类别之间的语义对齐。更具体地说,我们提出对比提示学习和类别相关语义细化来学习充分描述和抑制与每个目标对象类别相关的图像背景的提示。通过这种方式,我们提出的框架能够在对象区域和相关文本标签之间执行更好的语义匹配,从而产生用于训练分割模型的所需伪掩模。所提出的 SemPLeS 框架在标准 WSSS 基准、PASCAL VOC 和 MS COCO 上实现了 SOTA 性能,并通过我们学习的提示的语义可视化展示了可解释性。

Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review
Authors F. Xavier Gaya Morey, Cristina Manresa Yee, Jose M. Buades Rubio
随着全球发达国家老年人口比例的增加,这个群体的医疗保健是一个令人担忧的问题,特别是如果它包括保护他们的自主权的话。在这个方向上,许多关于环境辅助生活 AAL 系统的研究正在发表,这有助于减少老年人独立生活引起的关注。本研究系统回顾了老年人跌倒检测和人体活动识别HAR的文献,作​​为保障独居老年人安全需要解决的两个主要任务。为了解决当前执行这两项任务的趋势,本次审查重点关注在计算机视觉数据上使用基于深度学习的方法。此外,不同的数据集合,如深度学习模型、数据集或硬件,例如深度相机或热感相机是从审查的研究中收集的,并为未来的研究提供参考。

Full-Body Motion Reconstruction with Sparse Sensing from Graph Perspective
Authors Feiyu Yao, Zongkai Wu, Li Yi
从稀疏传感器数据估计 3D 全身姿势是增强现实和虚拟现实中重建真实人体运动的关键技术。然而,将稀疏的传感器信号转换为全面的人体运动仍然是一个挑战,因为常见 VR 系统中稀疏分布的传感器无法捕获完整的人体运动。在本文中,我们使用精心设计的身体姿势图 BPG 来表示人体,并将挑战转化为图缺失节点的预测问题。然后,我们提出了一种基于 BPG 的新型全身运动重建框架。为了建立 BPG,节点最初被赋予从稀疏传感器信号中提取的特征。来自不同传感器的可识别关节节点的特征从时间和空间角度进行合并和处理。使用时间金字塔结构捕获时间动态,而关节运动的空间关系则告知空间属性。由此产生的特征充当 BPG 节点的基本元素。为了进一步细化 BPG,节点特征通过图神经网络进行更新,该网络包含反映不同关节关系的边缘。我们的方法的有效性通过所达到的最先进的性能来证明,特别是在下半身运动方面,优于其他基线方法。

Collaborative Position Reasoning Network for Referring Image Segmentation
Authors Jianjian Cao, Beiya Dai, Yulin Li, Xiameng Qin, Jingdong Wang
给定图像和自然语言表达式作为输入,引用图像分割的目标是分割表达式引用的实体的前景掩模。现有方法主要侧重于视觉和语言之间的交互学习,以增强全局上下文推理的多模态表示。然而,直接在像素级空间中进行预测可能会导致定位崩溃和分割结果不佳。它的主要挑战在于如何显式地建模实体本地化,特别是对于非显着实体。在本文中,我们通过提出的新颖的行列交互式 RoCo 和引导整体交互式 Holi 模块执行协作位置推理网络 CPRN 来解决这个问题。具体来说,RoCo将视觉特征聚合成分别对应两个方向轴的行和列特征。它提供了一种细粒度的匹配行为,可以感知语言特征和两个解耦的视觉特征之间的关联,以在分层空间上执行位置推理。 Holi通过跨模态注意机制整合了两种模态的特征,在RoCo定位信息的指导下抑制了不相关的冗余。因此,通过RoCo和Holi模块的结合,CPRN捕获位置推理的视觉细节,使模型能够实现更准确的分割。据我们所知,这是第一个明确关注位置推理建模的工作。我们还在三个评估数据集上验证了所提出的方法。

Concealed Object Segmentation with Hierarchical Coherence Modeling
Authors Fengyang Xiao, Pan Zhang, Chunming He, Runze Hu, Yutao Liu
隐藏对象分割 COS 是一项具有挑战性的任务,涉及定位和分割那些在视觉上与周围环境融合的隐藏对象。尽管取得了显着的成功,现有的 COS 分割器仍然难以在极其隐蔽的场景下获得完整的分割结果。在本文中,我们提出了一种用于 COS 的分层一致性建模 HCM 分段器,旨在解决这种不完整的分段限制。具体来说,HCM 通过利用阶段内一致性和跨阶段一致性模块来促进特征一致性,探索单阶段和上下文级别的特征相关性。此外,我们引入了可逆重新校准解码器来检测低置信区域中以前未检测到的部分,从而进一步增强分割性能。

Boosting Multi-view Stereo with Late Cost Aggregation
Authors Jiang Wu, Rui Li, Yu Zhu, Wenxun Zhao, Jinqiu Sun, Yanning Zhang
成对匹配成本聚合是基于现代学习的多视图立体 MVS 的关键步骤。先前的工作采用早期聚合方案,将成对成本加起来为中间成本。

Multi-level Cross-modal Alignment for Image Clustering
Authors Liping Qiu, Qin Zhang, Xiaojun Chen, Shaotian Cai
最近,跨模态预训练模型已被用来产生有意义的伪标签来监督图像聚类模型的训练。然而,跨模式预训练模型中的大量错误对齐可能会产生质量差的伪标签并降低聚类性能。为了解决上述问题,我们提出了一种新的 textbf 多级跨模态对齐方法,通过构建更小但更好的语义空间并在三个级别(即: 、实例级别、原型级别和语义级别。理论结果表明我们提出的方法是收敛的,并提出了降低我们方法的预期聚类风险的有效方法。

EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
Authors Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
扩散模型最近因其在语义分割任务中卓越的迁移能力而受到越来越多的研究关注。然而,使用扩散模型生成细粒度的分割掩模通常需要对带注释的数据集进行额外的训练,从而不清楚预训练的扩散模型在多大程度上单独理解其生成图像的语义关系。为了解决这个问题,我们利用从稳定扩散 SD 中提取的语义知识,旨在开发一种能够生成细粒度分割图的图像分割器,而无需任何额外的训练。主要困难源于这样的事实:语义上有意义的特征图通常仅存在于空间较低维度的层中,这对直接从这些特征图中提取像素级语义关系提出了挑战。为了克服这个问题,我们的框架通过利用 SD 的生成过程来识别图像像素和低维特征图的空间位置之间的语义对应关系,并利用它们来构建图像分辨率分割图。

MetaSeg: Content-Aware Meta-Net for Omni-Supervised Semantic Segmentation
Authors Shenwang Jiang, Jianan Li, Ying Wang, Wenxuan Wu, Jizhou Zhang, Bo Huang, Tingfa Xu
噪声标签不可避免地存在于由弱对象级注释生成的伪分割标签中,严重阻碍了语义分割的模型优化。以前的工作通常依赖于大量的手工损失和精心调整的超参数来抵抗噪声,但泛化能力差且模型复杂度高。受元学习最新进展的启发,我们认为,与其被动地忍受隐藏在干净标签后面的噪声,更可行的解决方案是主动找出噪声区域,以便在模型优化过程中忽略它们。考虑到这一点,这项工作提出了一种新颖的基于元学习的语义分割方法 MetaSeg,它包括一个主要内容感知元网络 CAM Net,用作任意分割模型对应物的噪声指示器。具体来说,CAM Net 学习生成像素级权重,以抑制具有不正确伪标签的噪声区域,同时通过利用图像内容中的混合强化特征来突出显示干净的区域,为优化分割模型提供直接而可靠的指导。此外,为了打破将元学习应用于常见大型分割模型时耗时训练的障碍,我们进一步提出了一种新的解耦训练策略,以分而治之的方式优化不同的模型层。

Colorectal Polyp Segmentation in the Deep Learning Era: A Comprehensive Survey
Authors Zhenyu Wu, Fengmao Lv, Chenglizhao Chen, Aimin Hao, Shuo Li
结直肠息肉分割CPS作为医学图像分析中的一个基本问题,已经引起了越来越多的研究关注。近年来,基于深度学习的模型在CPS领域完全压倒了传统方法,越来越多的深度CPS方法涌现,将CPS带入了深度学习时代。为了帮助研究人员快速掌握深度CPS的主要技术、数据集、评估指标、挑战和趋势,本文对2014年至2023年基于深度学习的CPS方法进行了系统、全面的回顾,共115篇技术论文。特别是,我们首先通过新颖的分类法对当前的深度 CPS 进行了全面的回顾,包括网络架构、监督级别和学习范式。更具体地说,网络架构包括8个子类别,监督级别包括6个子类别,学习范式包括12个子类别,总共26个子类别。然后,我们对每个数据集的特征进行了全面的分析,包括数据集的数量、注释类型、图像分辨率、息肉大小、对比度值和息肉位置。接下来,我们总结了 CPS 常用的评估指标,并对 40 个深度 SOTA 模型进行了详细分析,包括分布外泛化和基于属性的性能分析。

Augmenting Prototype Network with TransMix for Few-shot Hyperspectral Image Classification
Authors Chun Liu, Longwei Yang, Dongmei Dong, Zheng Li, Wei Yang, Zhigang Han, Jiayao Wang
少镜头高光谱图像分类旨在通过仅标记少数像素来识别图像中每个像素的类别。并且为了获得每个像素的空间光谱联合特征,通常使用以每个像素为中心的固定大小的块进行分类。然而,观察现有方法的分类结果,我们发现高光谱图像中位于目标边界的像素对应的边界斑块很难分类。这些边界斑块与多类光谱信息混合。受此启发,我们建议使用 TransMix 增强原型网络,以实现少镜头高光谱图像分类 APNT 。以原型网络为骨干,采用变压器作为特征提取器来学习像素与像素的关系,并对不同的像素给予不同的关注。同时,它不是直接使用从高光谱图像中切下的补丁进行训练,而是随机混合两个补丁来模拟边界补丁,并使用合成的补丁来训练模型,目的是扩大模型的数量。努力训练样本并增强其多样性。并且通过遵循数据增强技术 TransMix,变压器返回的注意力也用于混合两个补丁的标签,以便为合成补丁生成更好的标签。

SFC: Shared Feature Calibration in Weakly Supervised Semantic Segmentation
Authors Xinqiao Zhao, Feilong Tang, Xiaoyang Wang, Jimin Xiao
图像级弱监督语义分割由于其注释成本低而受到越来越多的关注。现有方法主要依靠类激活映射CAM获取伪标签来训练语义分割模型。在这项工作中,我们首次证明了训练数据中的长尾分布会导致通过分类器权重计算出的 CAM 由于头类和尾类之间的共享特征而对头类过度激活,而对尾类激活不足。这会降低伪标签质量并进一步影响最终的语义分割性能。为了解决这个问题,我们提出了一种用于 CAM 生成的共享特征校准 SFC 方法。具体来说,我们利用具有积极共享特征的类原型,并提出多尺度分布加权 MSDW 一致性损失,以缩小训练期间通过分类器权重生成的 CAM 与类原型之间的差距。 MSDW 损失通过校准头尾类分类器权重中的共享特征来平衡过度激活和欠激活。实验结果表明,我们的 SFC 显着改善了 CAM 边界并实现了新的最先进性能。

MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object Detection
Authors Jianan Li, Shaocong Dong, Lihe Ding, Tingfa Xu
大规模户外场景中的精确 3D 物体检测,其特点是物体尺度变化很大,需要具有丰富的长距离和细粒度信息的特征。虽然最近的检测器利用基于窗口的变压器来模拟长距离依赖性,但它们往往会忽略细粒度的细节。为了弥补这一差距,我们提出了 MsSVT,这是一种创新的混合规模稀疏体素转换器,它通过分而治之的方法同时捕获两种类型的信息。这种方法涉及明确地将注意力头分为多个组,每个组负责关注特定范围内的信息。随后合并这些组的输出以获得最终的混合尺度特征。为了减轻与在 3D 体素空间中应用基于窗口的变换器相关的计算复杂性,我们引入了一种新颖的棋盘采样策略,并使用哈希图稀疏地实现体素采样和收集操作。此外,一个重要的挑战源于观察到非空体素主要位于物体表面,这阻碍了边界框的准确估计。为了克服这一挑战,我们引入了一个中心投票模块,该模块将新投票的体素(富含混合尺度上下文信息)集成到对象的中心,从而提高精确的对象定位。

Medical Image Debiasing by Learning Adaptive Agreement from a Biased Council
Authors Luyang Luo, Xin Huang, Minghao Wang, Zhuoyue Wan, Hao Chen
深度学习可能容易出现数据集偏差带来的学习捷径,并导致模型不准确、不可靠和不公平,这阻碍了其在现实世界临床应用中的采用。尽管其意义重大,但医学图像分类领域仍缺乏解决数据集偏差的研究。此外,偏见标签通常是不可知的,因为识别偏见可能很费力并且依赖于事后解释。本文建议从有偏差的委员会 Ada ABC 中学习自适应协议,这是一种不依赖于显式偏差标签来解决医学图像中的数据集偏差的去偏差框架。 Ada ABC 开发了一个由多个分类器组成的有偏差委员会,这些分类器通过广义交叉熵损失进行了优化,以学习数据集偏差。然后在有偏差委员会的指导下同时训练去偏差模型。具体来说,去偏差模型需要通过对有偏差委员会的正确预测样本达成一致并在错误预测样本上达成一致来学习与有偏差委员会的自适应一致性。这样,去偏模型可以学习没有虚假相关性的样本上的目标属性,同时也避免忽略具有虚假相关性的样本中的丰富信息。我们从理论上证明,当偏置模型成功捕获数据集偏差时,去偏置模型可以学习目标特征。此外,据我们所知,我们从包含七种不同偏差场景的四个数据集构建了第一个医学去偏差基准。我们广泛的实验实际上表明,我们提出的 Ada ABC 优于竞争方法,验证了其在减轻医学图像分类数据集偏差方面的有效性。

HG3-NeRF: Hierarchical Geometric, Semantic, and Photometric Guided Neural Radiance Fields for Sparse View Inputs
Authors Zelin Gao, Weichen Dai, Yu Zhang
神经辐射场 NeRF 作为通过从离散观察中学习场景表示来合成新颖视图的范例,引起了相当大的关注。然而,当面对稀疏视图输入时,NeRF 表现出明显的性能下降,从而限制了其进一步的适用性。在这项工作中,我们引入了分层几何、语义和光度引导 NeRF HG3 NeRF,这是一种新颖的方法,可以解决上述限制并增强不同视图中几何、语义内容和外观的一致性。我们提出分层几何引导 HGG,将 Motion SfM 中的结构附件(即稀疏深度先验)合并到场景表示中。与直接深度监督不同,HGG 从局部到全局几何区域对体积点进行采样,减轻了深度先验固有偏差造成的错位。此外,我们从不同分辨率图像中观察到的语义一致性的显着变化中汲取灵感,并提出分层语义指导 HSG 来学习从粗到细的语义内容,这对应于从粗到细的场景表示。

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
Authors Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
扩散模型在文本到图像的生成和编辑方面表现出了卓越的性能。然而,现有的方法在处理涉及具有多个属性和关系的多个对象的复杂文本提示时经常面临挑战。在本文中,我们提出了一种全新的训练免费文本到图像生成编辑框架,即Recaption、Plan和Generate RPG,利用多模态LLM强大的思维链推理能力来增强文本到图像扩散模型的组合性。我们的方法采用 MLLM 作为全局规划器,将生成复杂图像的过程分解为子区域内多个更简单的生成任务。我们提出互补的区域扩散,以实现区域明智的组合生成。此外,我们以闭环方式将文本引导图像生成和编辑集成到所提出的 RPG 中,从而增强了泛化能力。大量实验表明,我们的 RPG 优于最先进的文本到图像扩散模型,包括 DALL E 3 和 SDXL,特别是在多类别对象组合和文本图像语义对齐方面。值得注意的是,我们的 RPG 框架与各种 MLLM 架构(例如 MiniGPT 4)和扩散主干网(例如 ControlNet)具有广泛的兼容性。

EK-Net:Real-time Scene Text Detection with Expand Kernel Distance
Authors Boyuan Zhu, Fagui Liu, Xi Chen, Quan Tang
近年来,场景文本检测由于其广泛的应用而受到了广泛的关注。然而,在多个尺度、方向和曲率的复杂场景中进行准确检测仍然是一个挑战。众多检测方法采用华帝裁剪VC算法进行多实例训练,解决任意形状文本的问题。然而,我们从这些称为收缩内核的方法中发现了一些偏差结果。具体来说,它指的是由于过于偏向文本内核的输出而导致的准确性下降。在本文中,我们提出了一种名为 Expand Kernel Network EK Net 的新方法,它具有扩展核距离来弥补之前的不足,其中包括三阶段回归来完成实例检测。而且,EK Net不仅实现了任意形状文本的精确定位,还实现了性能和速度之间的权衡。

Memory-Efficient Prompt Tuning for Incremental Histopathology Classification
Authors Yu Zhu, Kang Li, Lequan Yu, Pheng Ann Heng
最近的研究在组织病理学分类方面取得了显着进展。基于当前的成功,当代的工作提出通过从顺序交付的领域中增量学习,进一步将模型升级到更通用和更稳健的方向。与之前基于参数隔离的方法在模型更新过程中通常需要大量计算资源不同,我们提出了一种内存高效的提示调整框架,以经济的内存成本培养模型泛化潜力。对于每个传入域,我们重用初始分类模型的现有参数,并将轻量级可训练提示附加到其中以进行定制调整。考虑到领域的异构性,我们进行了解耦的提示调整,其中我们为每个领域采用特定于领域的提示来独立研究其独特的特征,并在所有领域之间共享一个领域不变的提示,以不断探索整个时间嵌入的共同内容。所有特定于域的提示都将附加到提示库中,并与进一步的更改隔离,以防止忘记早期看到的域的独特特征。而领域不变提示将通过风格增强提示细化来传递和迭代演化,以随着时间的推移提高模型泛化能力。具体来说,我们用现有提示构建一个图,并构建一个风格增强图注意网络来引导域不变提示探索所有传递域之间的重叠潜在嵌入,以获得更多域通用表示。

MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo
Authors Chenjie Cao, Xinlin Ren, Yanwei Fu
基于学习的多视图立体 MVS 方法的最新进展突出地突出了具有注意机制的基于变压器的模型。然而,现有方法尚未彻底研究变压器对不同 MVS 模块的深远影响,导致深度估计能力有限。在本文中,我们介绍了 MVSFormer,这是一种谨慎地最大化注意力固有特征的方法,以增强 MVS 管道的各个组件。形式上,我们的方法涉及将交叉视图信息注入预先训练的 DINOv2 模型中,以促进 MVS 学习。此外,我们对特征编码器和成本量正则化采用不同的注意机制,分别关注特征和空间聚合。此外,我们发现一些设计细节会极大地影响 MVS 中 Transformer 模块的性能,包括归一化 3D 位置编码、自适应注意力缩放和层归一化的位置。在DTU、Tanks and Temples、BlishedMVS和ETH3D上的综合实验验证了所提方法的有效性。

ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition
Authors Jiaming Zhou, Junwei Liang, Kun Yu Lin, Jinrui Yang, Wei Shi Zheng
零镜头动作识别 ZSAR 旨在学习视频和已见动作的类描述之间的对齐模型,该模型可转移到未见动作。然而,现有 ZSAR 作品中使用的文本查询类描述通常是简短的动作名称,无法捕获视频中丰富的语义,从而导致错位。直觉上,视频内容描述(例如视频字幕)可以提供视频中视觉概念的丰富上下文信息,我们建议利用人类注释的视频描述来丰富每个动作的类描述的语义。然而,现有的动作视频描述数据集在动作数量、视频描述语义等方面都受到限制。为此,我们收集了一个名为 ActionHub 的大规模动作视频描述数据集,该数据集总共涵盖了 1,211 个常见动作并提供360万条动作视频描述。利用所提出的 ActionHub 数据集,我们进一步为 ZSAR 提出了一种新颖的交叉模态和交叉动作建模 CoCo 框架,该框架由双交叉模态对齐模块和交叉动作不变性挖掘模块组成。具体来说,双交叉模态对齐模块利用来自 ActionHub 的动作标签和视频描述来获取丰富的类别语义特征以进行特征对齐。交叉动作不变性挖掘模块利用已见动作和未见动作的类语义特征空间之间的循环重建过程,旨在引导模型学习交叉动作不变表示。大量实验结果表明,我们的 CoCo 框架在 ZSAR 的两种不同学习协议下,在三个流行的 ZSAR 基准(即 Kinetics ZSAR、UCF101 和 HMDB51)上显着优于现有技术。

OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning
Authors Chu Myaet Thwal, Minh N.H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong
联邦学习 FL 已成为一种很有前途的方法,可以跨多个边缘设备协作训练机器学习模型,同时保护隐私。 FL 的成功取决于参与模型的效率及其处理分布式学习独特挑战的能力。虽然 Vision Transformer ViT 的几种变体作为现代卷积神经网络 CNN 的集中训练替代品表现出了巨大的潜力,但前所未有的规模和更高的计算需求阻碍了它们在资源受限的边缘设备上的部署,从而挑战了它们在 FL 中的广泛应用。由于 FL 中的客户端设备通常具有有限的计算资源和通信带宽,因此用于此类设备的模型必须在模型大小、计算效率以及适应 FL 中遇到的多样化和非 IID 数据分布的能力之间取得平衡。为了应对这些挑战,我们提出了 OnDev LCT 轻量级卷积变压器,用于训练数据和资源有限的设备上视觉任务。我们的模型通过 LCT 标记器结合图像特定的归纳偏差,利用残余线性瓶颈块中的高效深度可分离卷积来提取局部特征,而 LCT 编码器中的多头自注意力 MHSA 机制隐式地促进捕获图像的全局表示。

M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition
Authors Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu
最近,像 CLIP 这样的大规模视觉语言预训练模型的兴起,加上参数高效微调 PEFT 技术,在视频动作识别领域引起了巨大的关注。然而,流行的方法倾向于优先考虑强监督性能,但代价是在传输过程中损害模型的泛化能力。在本文中,我们介绍了一种名为 name 的新颖的多模式、多任务 CLIP 适应框架来应对这些挑战,同时保持高监督性能和强大的可迁移性。首先,为了增强单独的模态架构,我们将多模态适配器引入视觉和文本分支。具体来说,我们设计了一种新颖的视觉 TED 适配器,它执行全局时间增强和局部时间差异建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,我们设计了一个具有丰富监督信号集的多任务解码器,以巧妙地满足多模态框架内对强监督性能和泛化的需求。

Friends Across Time: Multi-Scale Action Segmentation Transformer for Surgical Phase Recognition
Authors Bokai Zhang, Jiayuan Meng, Bin Cheng, Dean Biskup, Svetlana Petculescu, Angela Chapman
自动手术阶段识别是现代手术室和在线手术视频评估平台的核心技术。当前最先进的方法使用空间和时间信息来处理手术阶段识别任务。基于这个想法,我们提出了用于离线手术阶段识别的多尺度动作分割变压器 MS AST 和用于在线手术阶段识别的多尺度动作分割因果变压器 MS ASCT。我们使用ResNet50或EfficientNetV2 M进行空间特征提取。我们的 MS AST 和 MS ASCT 可以通过多尺度时间自注意力和多尺度时间交叉注意力对不同尺度的时间信息进行建模,从而增强对帧和片段之间时间关系的捕获。我们证明,我们的方法可以在 Cholec80 数据集上分别实现在线和离线手术阶段识别的 95.26 和 96.15 准确率,从而实现了新的最先进结果。

Zoom-shot: Fast and Efficient Unsupervised Zero-Shot Transfer of CLIP to Vision Encoders with Multimodal Loss
Authors Jordan Shipard, Arnold Wiliem, Kien Nguyen Thanh, Wei Xiang, Clinton Fookes
通过视觉语言模型 VLM 的出现,视觉和语言的融合给计算机视觉带来了革命性的转变。然而,现有 VLM 的资源密集性质提出了重大挑战。我们需要一种可访问的方法来开发下一代 VLM。为了解决这个问题,我们提出了 Zoom shot,这是一种将 CLIP 的零镜头功能转移到任何预先训练的视觉编码器的新颖方法。我们通过使用专门设计的多模态损失函数来利用 CLIP 潜在空间中存在的多模态信息(即文本和图像)来实现这一点。这些损失函数是 1 循环一致性损失和 2 我们新颖的提示引导知识蒸馏损失 PG KD 。 PG KD 将知识蒸馏的概念与 CLIP 的零样本分类相结合,以捕获文本和图像特征之间的交互。通过我们的多模态损失,我们训练了 CLIP 潜在空间和预训练视觉编码器的潜在空间之间的 textbf 线性映射,仅适用于 textbf 单个 epoch 。此外,Zoom shot 完全是无监督的,并且使用 textbf 未配对的数据进行训练。我们在粗粒度和细粒度分类数据集上测试了作为新 VLM 增强的一系列视觉编码器的零射击功能,其性能优于该问题领域之前的最先进技术。在我们的消融中,我们发现 Zoom shot 允许在训练期间在数据和计算之间进行权衡,并且可以通过将训练从 20 个 ImageNet 训练数据减少到 1 个 20 个 epoch 来获得我们最先进的结果。

Text-to-Image Cross-Modal Generation: A Systematic Review
Authors Maciej elaszczyk, Jacek Ma dziuk
我们从跨模态生成的角度回顾了从文本生成视觉数据的研究。这种观点使我们能够在处理输入文本和产生视觉输出的各种方法之间进行比较,而不是将分析限制在狭窄的子区域。它还导致了该领域常见模板的识别,然后在类似方法库和跨研究领域内对这些模板进行比较和对比。我们将文本到图像生成细分为各种风格的文本方法图像、文本方法视频、图像编辑、自我监督和基于图形的方法。在本次讨论中,我们重点关注 2016 年至 2022 年在 8 个领先的机器学习会议上发表的研究论文,还纳入了一些不符合概述的搜索标准的相关论文。进行的审查表明该领域发表的论文数量显着增加,并强调了研究差距和潜在的研究方向。

A Survey on African Computer Vision Datasets, Topics and Researchers
Authors Abdul Hakeem Omotayo, Ashery Mbilinyi, Lukman Ismaila, Houcemeddine Turki, Mahmoud Abdien, Karim Gamal, Idriss Tondji, Yvan Pimi, Naome A. Etori, Marwa M. Matar, Clifford Broni Bediako, Abigail Oppong, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Daniel Ajisafe, Oluwabukola G. Adegboro, Mennatullah Siam
计算机视觉涵盖一系列任务,例如对象检测、语义分割和 3D 重建。尽管与非洲社区相关,但过去十年非洲这一领域的研究仅占顶级出版物的 0.06。本研究对 2012 年至 2022 年期间非洲 63,000 份 Scopus 索引的计算机视觉出版物进行了全面分析。目的是对非洲计算机视觉主题、数据集和研究人员进行调查。我们研究的一个关键方面是使用自动解析这些出版物摘要的大型语言模型对非洲计算机视觉数据集进行识别和分类。我们还提供通过挑战或数据托管平台分发的非官方非洲计算机视觉数据集的汇编,并提供数据集类别的完整分类。我们的调查还指出了非洲不同地区特有的计算机视觉主题趋势,表明了它们独特的重点领域。此外,我们还进行了广泛的调查,以了解非洲研究人员对该大陆计算机视觉研究现状以及他们认为需要紧急关注的结构性障碍的看法。总之,本研究对非洲机构贡献或发起的计算机视觉数据集和主题进行了编目和分类,并确定了在顶级计算机视觉场所发表的障碍。这项调查强调了鼓励非洲研究人员和机构推进非洲大陆计算机视觉研究的重要性。

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers
Authors Katherine Crowson, Stefan Andreas Baumann, Alex Birch, Tanishq Mathew Abraham, Daniel Z. Kaplan, Enrico Shippole
我们提出了 Hourglass Diffusion Transformer HDiT ,这是一种图像生成模型,它表现出与像素数的线性缩放,支持高分辨率的训练,例如直接在像素空间中 1024 乘以 1024。它建立在 Transformer 架构之上,众所周知,该架构可扩展到数十亿个参数,它弥补了卷积 U 网络的效率与 Transformer 的可扩展性之间的差距。 HDiT 无需典型的高分辨率训练技术(例如多尺度架构、潜在自动编码器或自调节)即可成功训练。

TetraLoss: Improving the Robustness of Face Recognition against Morphing Attacks
Authors Mathias Ibsen, L zaro J. Gonz lez Soler, Christian Rathgeb, Christoph Busch
人脸识别系统广泛部署在高安全性应用中,例如边境管制的生物识别验证。尽管原始数据的准确性很高,但众所周知,面部变形等数字操作会对面部识别系统构成安全威胁。恶意行为者可以利用身份证件颁发过程提供的设施来获取包含变形图像的身份证件。因此,对变形图像的创建做出贡献的主体很可能使用身份证件来绕过自动面部识别系统。近年来,没有提出参考,即单图像和差分变形攻击检测器来解决这种风险。这些系统通常独立于人脸识别系统进行评估,它们必须与人脸识别系统联合运行,并且不考虑人脸识别过程。与大多数现有的工作相反,我们提出了一种新颖的方法,用于适应基于深度学习的人脸识别系统,以更鲁棒地抵御人脸变形攻击。为此,我们引入了 TetraLoss,一种新颖的损失函数,它学习将变形的人脸图像与其在嵌入空间中的贡献主体分开,同时仍然保持较高的生物特征验证性能。

Thermal Image Calibration and Correction using Unpaired Cycle-Consistent Adversarial Networks
Authors Hossein Rajoli, Pouya Afshin, Fatemeh Afghah
无人机为野火监测提供了灵活且具有成本效益的解决方案。然而,由于缺乏操作指南以及对飞机系统潜在干扰的担忧,它们在野火期间的广泛部署受到阻碍。因此,利用航空图像开发用于野火检测和表征的深度学习模型的进展受到现有数据集有限的可用性、大小和质量的限制。本文介绍了一种解决方案,旨在提高当前空中野火数据集的质量,以适应​​相机技术的进步。所提出的方法提供了创建全面、标准化的大规模图像数据集的解决方案。

Hierarchical Prompts for Rehearsal-free Continual Learning
Authors Yukun Zuo, Hantao Yao, Lu Yu, Liansheng Zhuang, Changsheng Xu
持续学习致力于使模型具备整合当前任务知识的能力,同时减少对过去任务知识的遗忘。受提示调整的启发,基于提示的方法保持冻结的骨干网,并使用轻微的可学习提示进​​行训练,以最大程度地减少由于更新大量骨干网参数而产生的灾难性遗忘。然而,这些可学习提示往往集中于当前任务的歧视性知识,而忽略过去的任务知识,导致可学习提示仍然遭受灾难性遗忘。本文介绍了一种新颖的无需排练的持续学习范式,称为分层提示 H 提示,包括类提示、任务提示和一般提示三类提示。为了有效地描述过去班级的知识,班级提示利用贝叶斯分布对齐来对每个任务中班级的分布进行建模。为了减少过去任务知识的遗忘,任务提示采用跨任务知识挖掘来融合过去任务和当前任务知识的学习类提示中封装的知识。此外,通用提示利用广义知识探索以自我监督的方式推导高度广义的知识。

Multi-View Neural 3D Reconstruction of Micro-/Nanostructures with Atomic Force Microscopy
Authors Shuo Chen, Mao Peng, Yijin Li, Bing Feng Ju, Hujun Bao, Yuan Liu Chen, Guofeng Zhang
原子力显微镜 AFM 是一种广泛使用的微纳米级形貌成像工具。然而,由于样品形貌捕获不完整和尖端样品卷积伪影等限制,传统 AFM 扫描难以精确重建复杂的 3D 微米纳米结构。在这里,我们提出了一种基于多视图神经网络的 AFM MVN AFM 框架,它可以准确地重建复杂微纳米结构的表面模型。与以前的工作不同,MVN AFM 不依赖于任何特殊形状的探针或对 AFM 系统进行昂贵的修改。为了实现这一目标,MVN AFM 独特地采用迭代方法来对齐多视图数据并同时消除 AFM 伪影。此外,我们开创了神经隐式表面重建在纳米技术中的应用,并取得了显着改善的结果。大量实验表明,MVN AFM 有效消除了原始 AFM 图像中存在的伪影,并重建了各种微纳米结构,包括通过双光子光刻和纳米颗粒(如 PMMA 纳米球和 ZIF 67 纳米晶体)打印的复杂几何微结构。

Deformable Endoscopic Tissues Reconstruction with Gaussian Splatting
Authors Lingting Zhu, Zhao Wang, Zhenchao Jin, Guying Lin, Lequan Yu
外科 3D 重建是机器人手术研究的一个关键领域,最近的工作采用动态辐射场的变体,成功地从单视点视频对可变形组织进行 3D 重建。然而,这些方法通常会遇到耗时的优化或质量较差的问题,限制了它们在下游任务中的采用。受到最近流行的 3D 表示形式 3D 高斯分布的启发,我们提出了 EndoGS,应用高斯分布进行可变形内窥镜组织重建。具体来说,我们的方法结合了变形场来处理动态场景、深度引导监督来优化单视点的 3D 目标,以及时空权重掩模来减轻工具遮挡。因此,EndoGS 从单视点视频、估计深度图和标记的工具掩模重建和渲染高质量的可变形内窥镜组织。达芬奇机器人手术视频实验表明,EndoGS 实现了卓越的渲染质量。

CaBuAr: California Burned Areas dataset for delineation
Authors Daniele Rege Cambrin, Luca Colomba, Paolo Garza
森林野火是过去几十年来造成巨大环境和人道主义损失的灾难性事件之一。除了大量二氧化碳排放外,它们还是短期(例如因火灾而导致城市临时疏散)和长期(例如山体滑坡风险较高)的社会风险来源。因此,支持地方当局自动识别烧毁区域的工具的可用性在持续监测需求中发挥着重要作用,以减轻此类灾难性事件的后果。卫星采集与计算机视觉技术的广泛可用性代表着开发此类工具的重要一步。本文介绍了一种新颖的开放数据集,用于解决烧毁区域划分问题,这是一种应用于卫星图像的二元分割问题。所提供的资源包括 Sentinel 2 L2A 对 2015 年开始发生的加利福尼亚州森林火灾的火灾前和火灾后数据。栅格注释是根据加利福尼亚州林业和消防部门发布的数据生成的。

MobileARLoc: On-device Robust Absolute Localisation for Pervasive Markerless Mobile AR
Authors Changkun Liu, Yukun Zhao, Tristan Braud
近年来,绝对相机姿态估计有了显着改进,为普遍的无标记增强现实 AR 铺平了道路。然而,精确的绝对姿态估计技术计算和存储量很大,需要计算卸载。因此,AR 系统依靠视觉惯性里程计 VIO 来跟踪设备在向服务器发出请求之间的相对姿势。然而,VIO 会出现漂移,需要频繁的绝对重新定位。本文介绍了 MobileARLoc,这是一种用于设备上大规模无标记移动 AR 的新框架,它将绝对姿态回归器 APR 与本地 VIO 跟踪系统相结合。绝对姿态回归器 APR 提供快速的设备姿态估计,但代价是精度降低。为了解决 APR 准确性并减少 VIO 漂移,MobileARLoc 创建了一个反馈循环,其中 VIO 姿态估计可细化 APR 预测。 VIO 系统可识别 APR 的可靠预测,然后用于补偿 VIO 漂移。我们通过数据集模拟全面评估 MobileARLoc。

Self-Supervised Bird's Eye View Motion Prediction with Cross-Modality Signals
Authors Shaoheng Fang, Zuhong Liu, Mingyu Wang, Chenxin Xu, Yiqi Zhong, Siheng Chen
以自我监督的方式学习密集鸟瞰 BEV 运动流是机器人和自动驾驶的一项新兴研究。目前的自监督方法主要依赖于点云之间的点对应关系,这可能会引入假流和不一致的问题,阻碍模型学习准确和真实运动的能力。在本文中,我们介绍了一种新颖的跨模态自监督训练框架,该框架通过利用多模态数据获取监督信号来有效解决这些问题。我们设计了三种创新的监督信号来保留场景运动的固有属性,包括掩模切角距离损失、分段刚度损失和时间一致性损失。

Edge-Enabled Real-time Railway Track Segmentation
Authors Chen Chenglin, Wang Fei, Yang Min, Qin Yong, Bai Yun
准确、快速的铁路轨道分割可以辅助列车自动驾驶,是对铁路轨道上的固定或移动障碍物进行预警的关键步骤。然而,现有的某些专为轨道分割量身定制的算法往往难以满足资源受限的边缘设备的实时性和效率要求。考虑到这一挑战,我们提出了一种支持边缘的实时铁路轨道分割算法,通过优化网络结构和训练后量化模型来优化该算法以适合边缘应用。最初引入Ghost卷积是为了降低backbone的复杂度,从而以较低的成本实现感兴趣区域关键信息的提取。为了进一步降低模型复杂度和计算量,提出了一种新的轻量级检测头,以实现精度和效率之间的最佳平衡。随后,我们引入量化技术将模型的浮点权重和激活值映射为较低位宽的定点表示,减少计算需求和内存占用,最终加速模型​​的推理。最后,我们从GPU并行编程原理中汲取灵感,通过并行处理来加快算法的预处理和后处理阶段。该方法使用公共且具有挑战性的数据集 RailSem19 进行评估,并在 Jetson Nano 上进行测试。

MapChange: Enhancing Semantic Change Detection with Temporal-Invariant Historical Maps Based on Deep Triplet Network
Authors Yinhe Liu, Sunan Shi, Zhuo Zheng, Jue Wang, Shiqi Tian, Yanfei Zhong
语义变化检测 SCD 被认为是图像分析领域中一项至关重要且具有挑战性的任务。传统的 SCD 方法主要依赖于图像对的比较。然而,这种方法受到由于拍摄时间、大气条件和角度的变化而产生的显着成像差异的严重阻碍。这种差异导致两个主要问题:微小但重大变化的检测不足,以及由于时间差异而产生误报。这些因素通常会导致未改变的对象在多时间图像中显得明显不同。为了应对这些挑战,MapChange 框架应运而生。该框架引入了一种新颖的范式,将时间不变的历史地图数据与当代高分辨率图像相结合。通过采用这种组合,有效地减轻了传统图像对比较中固有的时间方差。 MapChange 框架的功效已经通过对两个公共数据集的全面测试得到了实证验证。

ColorVideoVDP: A visual difference predictor for image, video and display distortions
Authors Rafal K. Mantiuk, Param Hanji, Maliha Ashraf, Yuta Asano, Alexandre Chapiro
ColorVideoVDP 是一种视频和图像质量指标,可对视觉的空间和时间方面(亮度和颜色)进行建模。该指标建立在彩色时空对比敏感度和跨通道对比掩蔽的新颖心理物理模型的基础上。它考虑了显示器的观看条件、几何和光度特性。它经过训练可以预测常见的视频流失真,例如视频压缩、重新缩放和传输错误,以及与 AR VR 显示器相关的 8 种新失真类型,例如光源和波导的不均匀性。为了解决后一种应用,我们收集了新颖的 XR Display Artifact 视频质量数据集 XR DAVID,由 336 个失真视频组成。对 XR DAVID 以及文献中的多个数据集进行的广泛测试表明,与现有指标相比,预测性能有了显着提高。

Exploring Missing Modality in Multimodal Egocentric Datasets
Authors Merey Ramazanova, Alejandro Pardo, Humam Alwassel, Bernard Ghanem
多模态视频理解对于分析以自我为中心的视频至关重要,其中集成多个感官信号可以显着增强动作识别和时刻定位。然而,由于隐私问题、效率要求或硬件故障等因素,实际应用经常会遇到不完整的模式。为了解决这个问题,我们的研究深入研究了缺失模式对以自我为中心的动作识别的影响,特别是在基于变压器的模型中。我们引入了一个新概念 Missing Modality Token MMT,即使在模态缺失的情况下也能保持性能,这一策略在 Ego4D、Epic Kitchens 和 Epic Sounds 数据集中被证明是有效的。我们的方法减轻了性能损失,当一半的测试集模态不完整时,将其从原始的 sim 30 下降到仅 sim 10。通过广泛的实验,我们证明了 MMT 对不同训练场景的适应性,以及与当前方法相比在处理缺失模式方面的优越性。

Inter-Domain Mixup for Semi-Supervised Domain Adaptation
Authors Jichang Li, Guanbin Li, Yizhou Yu
半监督域适应 SSDA 旨在桥接源域和目标域分布,利用少量可用的目标标签,实现比无监督域适应 UDA 更好的分类性能。然而,现有的SSDA工作未能充分利用源域和目标域的标签信息进行跨域特征对齐,导致模型测试时标签空间中的标签不匹配。本文提出了一种新颖的 SSDA 方法,即带有邻域扩展 IDMNE 的域间混合,来解决这个问题。首先,我们引入了一种跨域特征对齐策略Interdomain Mixup,它将标签信息合并到模型自适应中。具体来说,我们采用样本级和流形级数据混合来生成兼容的训练样本。这些新建立的样本与可靠且真实的标签信息相结合,显示出跨域的多样性和兼容性,而这种额外的监督有助于跨域特征对齐并减少标签不匹配。此外,我们利用邻域扩展来利用目标域中的高置信度伪标记样本,使目标域的标签信息多样化,从而进一步提高自适应模型的性能。

Adaptive Betweenness Clustering for Semi-Supervised Domain Adaptation
Authors Jichang Li, Guanbin Li, Yizhou Yu
与无监督域适应相比,半监督域适应SSDA旨在通过利用目标域中少量标记数据的存在来显着提高模型的分类性能和泛化能力。已经开发了几种SSDA方法来实现跨域的标记或伪标记样本之间的语义对齐特征混淆,然而,由于目标域的语义标签信息的稀缺,它们很难充分发挥其潜力。在本研究中,我们提出了一种名为“基于图的自适应中介聚类 G ABC”的新颖 SSDA 方法,用于实现分类域对齐,该方法通过强制从源域和目标域的标记数据到未标记目标样本的语义转移来实现跨域语义对齐。特别是,最初构建异构图来反映来自两个域的标记样本和目标域的未标记样本之间的成对关系。然后,为了降低图中的噪声连接性,通过引入两种策略来进行连接性细化,即基于置信不确定性的节点去除和基于预测相异性的边缘修剪。一旦图被细化,自适应介数聚类就被引入,通过使用跨域介数聚类和域内介数聚类来促进语义转移,从而将语义标签信息从跨域的标记样本传播到未标记的目标数据。

Geometric Prior Guided Feature Representation Learning for Long-Tailed Classification
Authors Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Puhua Chen
现实世界的数据是长尾的,尾部样本的缺乏导致模型的泛化能力受到显着限制。尽管许多类重新平衡方法对于中等程度的类不平衡问题表现良好,但当从几个尾部样本观察到的分布不能正确代表其真实分布时,需要引入额外的知识来帮助尾部恢复潜在的真实分布,从而允许该模型可以学习观察领域之外的有价值的信息。在这项工作中,我们建议利用良好表示的头类特征分布的几何信息来指导模型学习尾类的底层分布。具体来说,我们首先系统地定义了特征分布的几何形状和几何形状之间的相似性度量,并发现了关于不同特征分布的几何形状之间关系的四种现象。然后,基于四种现象,提出了特征不确定性表示,利用头类特征分布的几何形状来扰动尾部特征。其目的是使扰动特征尽可能覆盖尾类的底层分布,从而提高模型在测试域的泛化性能。最后,我们设计了一个三阶段训练方案,使特征不确定性建模能够成功应用。在 CIFAR 10 100 LT、ImageNet LT 和 iNaturalist2018 上的实验表明,我们提出的方法在大多数指标上都优于其他类似方法。

Exploring Diffusion Time-steps for Unsupervised Representation Learning
Authors Zhongqi Yue, Jiankun Wang, Qianru Sun, Lei Ji, Eric I Chao Chang, Hanwang Zhang
表示学习就是发现忠实生成数据的隐藏模块化属性。我们探索去噪扩散概率模型 DM 在模块化属性的无监督学习中的潜力。我们建立了一个连接扩散时间步长和隐藏属性的理论框架,作为无监督学习的有效归纳偏差。具体来说,前向扩散过程在每个时间步逐渐向样本添加高斯噪声,这本质上是通过丢失属性将不同样本折叠成相似的样本,例如,纹理等细粒度属性随着添加的噪声较少而丢失,即早期时间步,而通过添加更多噪声(即后期时间步骤),诸如形状之类的粗粒度会丢失。为了解开模块化属性,在每个时间步 t,我们学习 t 个特定特征来补偿新丢失的属性,并且对应于丢失属性的累积集的所有 1,...,t 个特定特征的集合为训练以弥补预训练 DM 在时间步 t 的重建误差。在 CelebA、FFHQ 和 Bedroom 数据集上,学习到的特征显着改善了属性分类,并实现了忠实的反事实生成,例如,在两幅图像之间仅插入一个指定属性,验证解开质量。

Grayscale Image Colorization with GAN and CycleGAN in Different Image Domain
Authors Chen Liang, Yunchen Sheng, Yichen Mo
灰度图像的自动着色一直是一项具有挑战性的任务。先前的研究已经应用监督方法来解决这个问题 1 。在本文中,我们重现了基于 GAN 的着色模型,并对其其中一个变体进行了实验。我们还提出了一个基于 CycleGAN 的模型,并在各种数据集上实验了这些方法。

Enhancing the vision-language foundation model with key semantic knowledge-emphasized report refinement
Authors Cheng Li, Weijian Huang, Hao Yang, Jiarun Liu, Shanshan Wang
最近,视觉语言表示学习在建立医学基础模型方面取得了显着进展,在改变临床研究和医疗保健领域具有巨大的潜力。基本假设是,放射学报告中嵌入的丰富知识可以有效地协助和指导学习过程,减少对额外标签的需求。然而,这些报告往往很复杂,有时甚至包含冗余描述,这使得表示学习难以捕获关键语义信息。本文通过提出一种强调关键语义知识的报告细化方法,开发了一种新颖的迭代视觉语言表示学习框架。特别是,根据构建的临床词典和两个模型优化的知识增强指标,对原始放射学报告进行细化以突出显示关键信息。迭代框架旨在逐步学习,从基于原始报告对患者病情的总体了解开始,逐步细化和提取对细粒度分析任务至关重要的关键信息。所提出的框架的有效性在各种下游医学图像分析任务上得到了验证,包括疾病分类、感兴趣区域分割和短语基础。

Embedded Hyperspectral Band Selection with Adaptive Optimization for Image Semantic Segmentation
Authors Yaniv Zimmer, Oren Glickman
高光谱波段选择在遥感和图像分析中发挥着关键作用,旨在识别信息最丰富的光谱波段,同时最大限度地减少计算开销。在本文中,我们介绍了一种开创性的高光谱波段选择方法,该方法提供了嵌入式解决方案,使其非常适合资源受限或实时应用。我们提出的方法,嵌入式高光谱波段选择 EHBS,擅长选择最佳波段,无需事先处理,与下游任务模型无缝集成。这是通过采用随机盖茨 STG 算法来实现的,该算法最初设计用于特征选择、图像语义分割背景下的高光谱波段选择以及动态优化器 DoG 的集成,从而无需调整学习速度。为了评估我们方法的性能,我们引入了一种新的指标,用于评估通过曲线下面积 AUC 量化的不同目标数量的选定波段的波段选择方法。我们对两个不同的语义分割高光谱基准数据集进行了实验,证明了与许多常见和最先进的方法相比,其在结果准确性和易用性方面的优越性。此外,我们的贡献超出了高光谱波段选择的领域。我们的方法对其他任务的适应性,特别是那些涉及分组特征的任务,为深度学习领域更广泛的应用开辟了有希望的途径,例如特征组的特征选择。

S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving
Authors Zhiyuan Wu, Yi Feng, Chuang Wei Liu, Fisher Yu, Qijun Chen, Rui Fan
语义分割和立体匹配是自动驾驶3D环境感知系统的两个重要组成部分。然而,传统方法通常独立解决这两个问题,为每个任务采用单独的模型。这种方法在现实世界场景中存在实际限制,特别是当计算资源稀缺或实时性能必不可少时。因此,在本文中,我们介绍了 S 3 M Net,这是一种新颖的联合学习框架,旨在同时执行语义分割和立体匹配。具体来说,S 3 M Net 在两个任务之间共享从 RGB 图像提取的特征,从而提高了整体场景理解能力。该特征共享过程是使用特征融合自适应FFA模块实现的,该模块有效地将共享特征转换到语义空间,然后将它们与编码的视差特征融合。整个联合学习框架是通过最小化新颖的语义一致性引导的 SCG 损失来训练的,该损失强调两项任务的结构一致性。在 vKITTI2 和 KITTI 数据集上进行的大量实验结果证明了我们提出的联合学习框架的有效性及其与其他最先进的单任务网络相比的优越性能。

Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts
Authors Kiyoon Kim, Shreyank N Gowda, Panagiotis Eustratiadis, Antreas Antoniou, Robert B Fisher
尽管视频动作识别领域的最新进展在现有基准上取得了出色的性能,但这些模型在面对训练数据和测试数据之间的自然分布变化时往往缺乏鲁棒性。我们提出了两种新颖的评估方法来评估模型对这种分布差异的弹性。一种方法使用从不同来源收集的两个不同数据集,并使用一个用于训练和验证,另一个用于测试。更准确地说,我们使用训练和测试数据集中重叠的类子集,创建了用于训练的 HMDB 51 或 UCF 101 的数据集分割,以及用于测试的 Kinetics 400 的数据集分割。另一种提出的方​​法从目标评估数据集的训练数据(即类原型)中提取每个类的特征平均值,并将测试视频预测估计为每个样本与每个目标类的类原型之间的余弦相似度得分。此过程不会使用目标数据集改变模型权重,并且不需要对齐两个不同数据集的重叠类,因此是一种非常有效的方法,可以在不事先了解目标分布的情况下测试模型对分布变化的鲁棒性。我们通过对抗性增强训练来解决鲁棒性问题,通过对增强参数应用梯度上升以及课程安排视频增强的强度,生成对分类模型来说很难的视频增强视图。我们通过实验证明了所提出的对抗性增强方法相对于三种最先进的动作识别模型 TSM、Video Swin Transformer 和 Uniformer 的基线的优越性能。

LLMRA: Multi-modal Large Language Model based Restoration Assistant
Authors Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
多模态大语言模型 MLLM 因其丰富的知识和强大的感知和生成能力而对各种任务产生重大影响。然而,将 MLLM 应用于低级视觉任务仍然是一个开放的研究问题。在本文中,我们提出了一个简单的基于 MLLM 的图像恢复框架来解决这一差距,即基于多模态大语言模型的恢复助手 LLMRA 。我们利用 MLLM 令人印象深刻的功能来获取通用图像恢复的退化信息。通过采用预训练的多模态大语言模型和视觉语言模型,我们生成文本描述并将其编码为上下文嵌入,其中包含退化图像的退化信息。通过提出的上下文增强模块 CEM 和基于降级上下文的 Transformer Network DC 模型,我们将这些上下文嵌入集成到恢复网络中,有助于更准确和可调整的图像恢复。基于与用户的对话,我们的方法利用 MLLM 的图像退化先验,同时提供输入低质量图像和恢复的高质量图像的低级属性描述。

UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation
Authors Qingdong He, Jinlong Peng, Zhengkai Jiang, Kai Wu, Xiaozhong Ji, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Mingang Chen, Yunsheng Wu
3D 开放词汇场景理解旨在识别超出基本标签空间的任意新类别。然而,现有的工作不仅未能充分利用 3D 域中所有可用的模态信息,而且在表示每种模态的特征时也缺乏足够的粒度。在本文中,我们提出了一种统一的多模态 3D 开放词汇场景理解网络,即 UniM OV3D,它将点云与图像、语言和深度对齐。为了更好地集成点云的全局和局部特征,我们设计了一个分层点云特征提取模块,该模块可以学习全面的细粒度特征表示。此外,为了促进从字幕中学习粗略到精细的语义表示,我们建议利用分层 3D 字幕对,利用 3D 场景各个视点的几何约束。大量的实验结果证明了我们的方法在开放词汇语义和实例分割方面的有效性和优越性,该方法在 ScanNet、ScanNet200、S3IDS 和 nuScenes 等室内和室外基准测试上均实现了最先进的性能。

ANNA: A Deep Learning Based Dataset in Heterogeneous Traffic for Autonomous Vehicles
Authors Mahedi Kamal, Tasnim Fariha, Afrina Kabir Zinia, Md. Abu Syed, Fahim Hasan Khan, Md. Mahbubur Rahman
人工智能的最新突破为自动驾驶应用的开发提供了巨大的希望。特别是深度神经网络被用来通过对象识别和语义分割来支持半自动汽车的操作。为了评估当前数据集在自动驾驶和半自动驾驶汽车方面的不足,我们创建了一个名为 ANNA 的新数据集。本研究讨论了一个定制的数据集,其中包括孟加拉国视角中的一些身份不明的车辆,这些车辆未包含在现有数据集中。通过使用 Intersection Over Union IOU 指标评估模型来执行数据集有效性检查。结果表明,在我们的自定义数据集上训练的模型比在有关孟加拉国交通的 KITTI 或 COCO 数据集上训练的模型更加精确和高效。

Prompting Large Vision-Language Models for Compositional Reasoning
Authors Timothy Ossowski, Ming Jiang, Junjie Hu
CLIP 等视觉语言模型在将文本和图像编码为对齐的嵌入方面表现出了令人印象深刻的能力,从而能够在共享嵌入空间中检索多模态数据。然而,这些基于嵌入的模型在有效匹配具有相似 visio 语言组合性的图像和文本方面仍然面临挑战,正如它们在最近的 Winoground 数据集上的表现所证明的那样。在本文中,我们认为这种限制源于两个因素:对复杂多模态数据使用单向量表示,以及这些基于嵌入的方法中缺乏逐步推理。为了解决这个问题,我们使用一种新颖的生成方法进行了探索性的一步,该方法提示大型视觉语言模型(例如 GPT 4)来描述图像并执行组合推理。

Weakly-Supervised Semantic Segmentation of Circular-Scan, Synthetic-Aperture-Sonar Imagery
Authors Isaac J. Sledge, Dominic M. Byrne, Jonathan L. King, Steven H. Ostertag, Denton L. Woods, James L. Prater, Jermaine L. Kennedy, Timothy M. Marston, Jose C. Principe
我们提出了一种用于圆形扫描合成孔径声纳 CSAS 图像语义分割的弱监督框架。我们框架的第一部分以有监督的方式在图像级标签上进行训练,以发现每个图像中的一组半稀疏、空间区分区域。然后评估每个区域的分类不确定性。然后,选择那些不确定性最低的区域作为框架第二部分在像素级别的弱标记分割种子。每个种子范围都根据无监督的信息理论损失和结构化预测正则器逐步调整大小。此重塑过程使用多尺度、自适应加权特征来描绘局部图像内容中的类特定转换。

A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models
Authors Reda Bensaid, Vincent Gripon, Fran ois Leduc Primeau, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux
近年来,计算机视觉的快速发展出现了各种视觉基础模型,每种模型都针对特定的数据类型和任务量身定制。虽然大型语言模型通常共享一个共同的借口任务,但视觉基础模型的多样性源于其不同的训练目标。在这项研究中,我们深入研究了如何确定最有效的视觉基础模型,以实现少镜头语义分割,这是计算机视觉中的一项关键任务。具体来说,我们对四个著名的基础模型 DINO V2、Segment Anything、CLIP、Masked AutoEncoders 以及在 COCO 数据集上预训练的简单 ResNet50 进行了全面的比较分析。我们的研究重点是它们对新语义分割任务的适应性,仅利用有限数量的分割图像。我们的实验结果表明,DINO V2 在各种数据集和适应方法中始终优于其他考虑的基础模型。这一结果强调了 DINO V2 与同类产品相比,适应语义分割任务的卓越能力。此外,我们的观察表明,各种适配器方法表现出相似的性能,强调选择鲁棒的特征提取器比适应技术本身的复杂性至关重要。这一见解揭示了特征提取在少镜头语义分割的背景下的关键作用。

Evaluating Driver Readiness in Conditionally Automated Vehicles from Eye-Tracking Data and Head Pose
Authors Mostafa Kazemi, Mahdi Rezaei, Mohsen Azarmi
随着自动驾驶技术的进步,驾驶员在有条件自动驾驶车辆中恢复车辆控制的作用变得越来越重要。在 SAE 3 级或半自动驾驶车辆中,驾驶员需要随时准备好在必要时进行干预。这使得准确评估他们的准备情况至关重要。本文结合头部姿势特征和眼动追踪数据,对驾驶员准备状态评估进行了全面分析。该研究探讨了预测模型在评估驾驶员准备情况、解决数据集限制和有限真实标签挑战方面的有效性。包括 LSTM 架构在内的机器学习技术用于根据驾驶员头部姿势和眼睛注视的时空状态对驾驶员准备情况进行建模。本文中的实验表明,结合两个功能集的双向 LSTM 架构在 DMD 数据集上实现了 0.363 的平均绝对误差,展示了在评估驾驶员准备情况方面的卓越性能。

LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise Relevance Propagation
Authors Navin Ranjan, Andreas Savakis
视觉转换器 ViT 在各种视觉任务中表现出了卓越的性能。然而,ViT 模型面临大量的计算和内存需求,这使得将它们部署在资源受限的平台上具有挑战性。量化是减小模型大小的流行方法,但大多数研究主要集中于整个网络的等位宽度量化,从而导致次优解决方案。虽然关于 ViT 的混合精度量化 MPQ 的工作很少,但它们通常依赖于基于搜索空间的方法或任意采用混合精度。在本文中,我们介绍了 LRP QViT,这是一种基于可解释性的方法,用于根据分类过程中的重要性将混合精度位分配分配给不同的层。具体来说,为了衡量每一层在预测目标类别中的贡献分数,我们采用逐层相关性传播 LRP 方法。 LRP 在输出层分配局部相关性,并将其传播到所有层,分配相关性直到到达输入层。这些相关性分数充当计算层贡献分数的指标。此外,我们还引入了剪切通道量化,旨在消除 LayerNorm 激活后的异常值,以减轻严重的通道间变化。为了验证和评估我们的方法,我们在各种数据集上跨 ViT、DeiT 和 Swin 变压器模型使用 LRP QViT。

Product-Level Try-on: Characteristics-preserving Try-on with Realistic Clothes Shading and Wrinkles
Authors Yanlong Zang, Han Yang, Jiaxu Miao, Yi Yang

Unifying Visual and Vision-Language Tracking via Contrastive Learning
Authors Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang, Jinpeng Zhang, Mengxue Kang
单目标跟踪旨在根据不同模态参考指定的状态来定位视频序列中的目标对象,包括初始边界框 BBOX 、自然语言 NL 或两者 NL BBOX 。由于不同模态之间的差距,大多数现有跟踪器都是针对这些参考设置中的单个或部分而设计的,并且过度专注于特定模态。不同的是,我们提出了一个名为 UVLTrack 的统一跟踪器,它可以使用相同的参数同时处理所有三个参考设置 BBOX、NL、NL BBOX。所提出的 UVLTrack 有几个优点。首先,我们设计了一个用于联合视觉和语言特征学习的模态统一特征提取器,并提出了一种多模态对比损失,将视觉和语言特征对齐到统一的语义空间中。其次,提出了一种模态自适应盒头,它充分利用目标参考从视频上下文中动态挖掘不断变化的场景特征,并以对比的方式区分目标,从而在不同的参考设置下实现鲁棒的性能。大量的实验结果表明,UVLTrack 在七个视觉跟踪数据集、三个视觉语言跟踪数据集和三个视觉基础数据集上取得了良好的性能。

Towards Category Unification of 3D Single Object Tracking on Point Clouds
Authors Jiahao Nie, Zhiwei He, Xudong Lv, Xueyi Zhou, Dong Kyu Chae, Fei Xie
无论是暹罗模式还是以运动为中心的范例,类别特定模型都是 3D 单对象跟踪 SOT 中经过证明有价值的方法。然而,这种过于专业的模型设计会产生冗余参数,从而限制了 3D SOT 任务的更广泛适用性。本文首先介绍了统一模型,该模型可以使用具有共享模型参数的单个网络同时跟踪所有类别的对象。具体来说,我们建议显式编码与不同对象类别相关的不同属性,使模型能够适应跨类别数据。我们发现点云对象的属性差异主要来自不同的尺寸和形状,例如大型和方形车辆与小型车辆。人类又小又苗条。基于这一观察,我们设计了一种继承 Transformer 架构的新型点集表示学习网络,称为 AdaFormer,它以统一的方式自适应地编码来自跨类别数据的动态变化的形状和大小信息。我们进一步将从已知模板目标导出的尺寸和形状先验合并到模型的输入和学习目标中,促进统一表示的学习。有了这样的设计,我们构建了两个类别的统一模型SiamCUT和MoCUT。大量的实验表明SiamCUT和MoCUT表现出很强的泛化性和训练稳定性。此外,我们的类别统一模型明显优于特定类别的对应模型,例如,在 KITTI 数据集上,暹罗和运动范例的性能提升了 12 和 3。

Pixel-Wise Recognition for Holistic Surgical Scene Understanding
Authors Nicol s Ayobi, Santiago Rodr guez, Alejandra P rez, Isabela Hern ndez, Nicol s Aparicio, Eug nie Dessevres, Sebasti n Pe a, Jessica Santander, Juan Ignacio Caicedo, Nicol s Fern ndez, Pablo Arbel ez
本文介绍了前列腺切除术 GraSP 数据集的整体和多粒度手术场景理解,这是一个精心策划的基准,它将手术场景理解建模为具有不同粒度级别的补充任务的层次结构。我们的方法能够对手术活动进行多层次的理解,包括手术阶段和步骤识别等长期任务以及手术器械分割和原子视觉动作检测等短期任务。为了利用我们提出的基准,我们引入了用于操作、阶段、步骤和仪器分割 TAPIS 模型的变压器,这是一种通用架构,它将全局视频特征提取器与仪器分割模型中的局部区域建议相结合,以解决我们基准的多粒度问题。通过广泛的实验,我们展示了在短期识别任务中包含分割注释的影响,突出了每个任务不同的粒度要求,并确立了 TAPIS 相对于之前提出的基线和传统的基于 CNN 的模型的优越性。此外,我们在多个公共基准上验证了我们方法的稳健性,确认了我们数据集的可靠性和适用性。

Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images
Authors Kuofeng Gao, Yang Bai, Jindong Gu, Shu Tao Xia, Philip Torr, Zhifeng Li, Wei Liu
GPT 4 等大型视觉语言模型 VLM 在各种多模态任务中取得了卓越的性能。然而,VLM 的部署需要大量的能源消耗和计算资源。一旦攻击者在VLM的推理过程中恶意引发高能耗和延迟时间能量延迟成本,就会耗尽计算资源。在本文中,我们探讨了有关 VLM 可用性的攻击面,旨在在 VLM 推理过程中引发高能量延迟成本。我们发现,VLM 推理期间的高能量延迟成本可以通过最大化生成序列的长度来控制。为此,我们提出了详细图像,目的是设计一种难以察觉的扰动,以诱导 VLM 在推理过程中生成长句子。具体来说,我们设计了三个损失目标。首先,提出了一个损失来延迟 EOS 代币序列结束的发生,其中 EOS 代币是 VLM 停止生成更多代币的信号。此外,提出了不确定性损失和令牌多样性损失,以分别增加每个生成的令牌的不确定性和整个生成序列的所有令牌之间的多样性,这可以打破令牌级别和序列级别的输出依赖性。此外,提出了一种时间权重调整算法,可以有效平衡这些损失。大量实验表明,与 MS COCO 和 ImageNet 数据集上的原始图像相比,我们的详细图像可以将生成序列的长度增加 7.87 倍和 8.56 倍,这给各种应用带来了潜在的挑战。

Simultaneous Gesture Classification and Localization with an Automatic Gesture Annotation Model
Authors Junxiao Shen, Xuhai Xu, Ran Tan, Amy Karlson, Evan Strasnick
训练实时手势识别模型在很大程度上依赖于带注释的数据。然而,手动数据注释成本高昂并且需要大量的人力。为了应对这一挑战,我们提出了一种新颖的注释模型,可以自动注释手势类别并识别其时间范围。我们的消融研究表明,我们的注释模型设计在手势分类精度 3 4 改进和定位精度 71 75 改进方面均超过了基线。

Towards Open-World Gesture Recognition
Authors Junxiao Shen, Matthias De Lange, Xuhai Orson Xu, Enmin Zhou, Ran Tan, Naveen Suda, Maciej Lazarewicz, Per Ola Kristensson, Amy Karlson, Evan Strasnick
手势识别中的静态机器学习方法假设训练和测试数据来自相同的底层分布。然而,在涉及手腕佩戴设备上的手势识别的现实应用中,数据分布可能会随着时间的推移而改变。我们将识别模型适应新任务(其中出现新数据模式)的问题表述为开放世界手势识别 OWGR 。我们建议利用持续学习使机器学习模型适应新任务,而不会降低之前学习任务的性能。然而,探索何时以及如何训练和部署识别模型的参数需要耗时的用户研究,有时是不切实际的。为了应对这一挑战,我们提出了一种设计工程方法,可以对收集的具有各种参数的大规模数据集进行离线分析,并比较不同的持续学习方法。

Stability Plasticity Decoupled Fine-tuning For Few-shot end-to-end Object Detection
Authors Yuantao Yin, Ping Yin
少镜头目标检测 FSOD 旨在设计方法,仅用少量带注释的样本即可有效地适应目标检测器。微调已被证明是一种有效且实用的方法。然而,以往的工作往往采用经典的基础新颖的两阶段微调过程,而忽略了不同模块之间隐含的稳定性可塑性矛盾。具体来说,随机重新初始化的分类器需要更多的可塑性来适应新的样本。继承预训练权重的其他模块需要更高的稳定性以保留其与类别无关的知识。定期微调将这两部分的优化结合在一起,会损害 FSOD 场景中的模型泛化能力。在本文中,我们发现这个问题在端到端目标检测器 Sparse R CNN 中因其多分类器级联架构而变得突出。我们建议通过引入额外的塑性分类器微调 PCF 阶段,通过新的三阶段微调程序来缓解这一矛盾。我们进一步设计了多源集成 ME 技术,以增强最终微调阶段模型的泛化能力。

EMA-Net: Efficient Multitask Affinity Learning for Dense Scene Predictions
Authors Dimitrios Sinodinos, Narges Armanfard
多任务学习 MTL 因其联合预测多个任务的能力而备受瞩目,与单任务学习相比,在使用更少的每任务模型参数的同时实现更好的每任务性能。最近,以解码器为中心的架构通过使用其他相关任务的特征来细化任务预测,显着提高了多任务性能。然而,大多数这些细化方法无法同时捕获局部和全局任务特定表示,以及以参数有效的方式跨任务模式。在本文中,我们介绍了高效多任务亲和学习网络EMA Net,这是一个轻量级框架,可以增强多任务网络的任务细化能力。 EMA Net 使用我们新颖的跨任务亲和学习 CTAL 模块熟练地捕获本地、全局和跨任务交互。 CTAL 的关键创新在于它能够以最适合应用参数高效分组卷积的方式操纵任务亲和力矩阵,而无需担心信息丢失。我们的结果表明,我们在使用更少的模型参数的情况下,为基于 CNN 的解码器聚焦模型实现了最先进的 MTL 性能。

Uncertainty-aware Bridge based Mobile-Former Network for Event-based Pattern Recognition
Authors Haoxiang Yang, Chengguo Yuan, Yabin Zhu, Lan Chen, Xiao Wang, Jin Tang
主流的人体活动识别HAR算法是基于RGB相机开发的,容易受到低照度、运动模糊等低质量图像的影响。与此同时,超高清HD RGB摄像机引发的隐私保护问题也引起了越来越多人们的关注。受到事件相机在高动态范围、无运动模糊和低能耗方面表现更好的成功的启发,我们建议根据事件流来识别人类动作。我们提出了一种基于移动前网络的轻量级不确定性感知信息传播,用于高效模式识别,它有效地聚合了 MobileNet 和 Transformer 网络。具体来说,我们首先使用干网络将事件图像嵌入到特征表示中,然后将它们输入到不确定性感知移动前模块中,以进行局部和全局特征学习和融合。最后,将 MobileNet 和 Transformer 分支的特征连接起来以进行模式识别。基于多个事件的识别数据集的广泛实验充分验证了我们模型的有效性。

Spatial Structure Constraints for Weakly Supervised Semantic Segmentation
Authors Tao Chen, Yazhou Yao, Xingguo Huang, Zechao Li, Liqiang Nie, Jinhui Tang
图像级标签由于其易于使用而在弱监督语义分割任务中占据了主导地位。由于图像级标签只能指示特定类别的对象是否存在,因此基于可视化的技术已被广泛采用来提供对象位置线索。考虑到类激活图 CAM 只能定位对象中最具辨别力的部分,最近的方法通常采用扩展策略来扩大激活区域,以实现更完整的对象定位。然而,如果没有适当的约束,扩展的激活很容易侵入背景区域。在本文中,我们提出了弱监督语义分割的空间结构约束SSC,以减轻不需要的对象过度激活注意力扩展。具体来说,我们提出了一种 CAM 驱动的重建模块,可以直接从深层 CAM 特征重建输入图像,通过保留图像内容的粗糙空间结构来限制最后一层对象注意力的扩散。此外,我们提出了一种激活自调制模块,通过增强区域一致性来细化具有更精细空间结构细节的 CAM。

MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation
Authors Nhat M. Hoang, Kehong Gong, Chuan Guo, Michael Bi Mi
随着世界拥抱数字化转型,可控生成 3D 人体动作成为一个重要课题。现有的工作虽然随着扩散模型的出现取得了有希望的进展,但在很大程度上依赖于精心捕获和注释的文本高质量运动语料库,这是现实世界中的资源密集型工作。这激发了我们提出的 MotionMix,这是一种简单但有效的弱监督扩散模型,它利用了噪声和未注释的运动序列。具体来说,我们将扩散模型的去噪目标分为两个阶段,通过学习噪声注释运动,在初始 T T 步骤中获得条件粗略运动近似,然后在最后 T 步骤中使用未注释运动对这些初步运动进行无条件细化。值得注意的是,尽管从两个不完美数据源学习,但与访问黄金数据的完全监督方法相比,我们的模型并没有损害运动生成质量。

DengueNet: Dengue Prediction using Spatiotemporal Satellite Imagery for Resource-Limited Countries
Authors Kuan Ting Kuo, Dana Moukheiber, Sebastian Cajas Ordonez, David Restrepo, Atika Rahman Paddo, Tsung Yu Chen, Lama Moukheiber, Mira Moukheiber, Sulaiman Moukheiber, Saptarshi Purkayastha, Po Chih Kuo, Leo Anthony Celi
登革热对卫生基础设施不足的发展中国家构成了重大挑战。缺乏全面的医疗保健系统会加剧登革热感染的严重性,可能导致危及生命的情况。由于信息交换和整合有限,对登革热疫情的快速反应也具有挑战性。虽然及时的登革热疫情预测有可能预防此类疫情的爆发,但大多数登革热预测研究主要依赖于给个别国家带来沉重收集负担的数据。在这项研究中,我们的目标是通过探索高分辨率卫星图像作为非传统且易于访问的数据源的有效性,改善资源有限国家的健康公平。通过利用大量公开且易于获取的卫星图像,我们提出了一个基于 Sentinel Hub(基于云的计算平台)的可扩展卫星提取框架。此外,我们还介绍了 DengueNet,这是一种创新架构,结合了 Vision Transformer、Radioomics 和长期短期记忆,可从卫星图像中提取和集成时空特征。这使得登革热周的预测成为可能。为了评估我们提出的方法的有效性,我们在哥伦比亚的五个城市进行了实验。我们利用包含 780 个高分辨率 Sentinel 2 卫星图像的数据集进行训练和评估。 DengueNet 的性能使用平均绝对误差 MAE 指标进行评估。在五个城市中,DengueNet 的平均 MAE 为 43.92。

VONet: Unsupervised Video Object Learning With Parallel U-Net Attention and Object-wise Sequential VAE
Authors Haonan Yu, Wei Xu
无监督视频对象学习旨在将视频场景分解为结构对象表示,而无需任何深度、光流或分割的监督。我们提出了 VONet,这是一种受 MONet 启发的创新方法。在利用 U Net 架构的同时,VONet 采用高效且有效的并行注意力推理过程,同时为所有时隙生成注意力掩模。此外,为了增强连续视频帧中每个掩模的时间一致性,VONet 开发了一个对象明智的顺序 VAE 框架。这些创新的编码器端技术与基于表达转换器的解码器相结合,使 VONet 成为跨五个 MOVI 数据集(涵盖不同复杂性的视频)进行对象学习的领先无监督方法。

Adaptive Global-Local Representation Learning and Selection for Cross-Domain Facial Expression Recognition
Authors Yuefang Gao, Yuhao Xie, Zeke Zexi Hu, Tianshui Chen, Liang Lin
由于不同域之间的分布变化,域转移对跨域面部表情识别 CD FER 提出了重大挑战。目前的工作主要集中在通过全局特征适应来学习领域不变特征,而忽略了局部特征的可迁移性。此外,这些方法在目标数据集的训练过程中缺乏区分性监督,导致目标域中的特征表示恶化。为了解决这些限制,我们提出了自适应全局局部表示学习和选择 AGLRLS 框架。该框架结合了全局局部对抗性适应和语义感知伪标签生成,以增强训练过程中领域不变性和判别性特征的学习。同时,引入全局局部预测一致性学习来改善推理过程中的分类结果。具体来说,该框架由单独的全局局部对抗性学习模块组成,这些模块独立学习领域不变的全局和局部特征。我们还设计了一个语义感知伪标签生成模块,它根据全局和局部特征计算语义标签。此外,采用一种新颖的动态阈值策略,通过利用全局和局部特征的独立预测来学习最佳阈值,确保过滤掉不可靠的伪标签,同时保留可靠的伪标签。这些标签用于通过端到端的对抗性学习过程进行模型优化。在推理过程中,开发了全局局部预测一致性模块,以自动从多个预测中学习最佳结果。我们基于公平的评估基准进行全面的实验和分析。

UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures
Authors Mingyuan Zhou, Rakib Hyder, Ziwei Xuan, Guojun Qi
3D 头像生成的最新进展引起了广泛关注。这些突破旨在产生更逼真的动画化身,缩小虚拟和现实世界体验之间的差距。大多数现有作品都采用分数蒸馏采样 SDS 损失,结合可微渲染器和文本条件,来指导扩散模型生成 3D 头像。然而,SDS 经常生成过度平滑的结果,面部细节很少,因此与祖先采样相比缺乏多样性。另一方面,其他作品从单个图像生成 3D 头像,其中不需要的光照效果、透视图和较差的图像质量的挑战使得它们难以可靠地重建具有对齐的完整纹理的 3D 面部网格。在本文中,我们提出了一种称为 UltrAvatar 的新型 3D 头像生成方法,该方法具有增强的几何保真度,以及基于物理的渲染 PBR 纹理的卓越质量,并且没有不需要的照明。为此,所提出的方法提出了漫射颜色提取模型和真实性引导纹理扩散模型。前者消除了不需要的光照效果,以显示真实的漫反射颜色,以便生成的头像可以在各种光照条件下渲染。后者遵循两个基于梯度的指导来生成 PBR 纹理,以渲染不同的面部身份特征和细节,更好地与 3D 网格几何体对齐。

Make-A-Shape: a Ten-Million-scale 3D Shape Model
Authors Ka Hei Hui, Aditya Sanghi, Arianna Rampini, Kamal Rahimi Malekshan, Zhengzhe Liu, Hooman Shayani, Chi Wing Fu
在训练自然语言和图像的大型生成模型方面取得了重大进展。然而,3D 生成模型的进步受到大量训练资源需求以及低效、不紧凑和表达能力较差的阻碍。本文介绍了 Make A Shape,这是一种新的 3D 生成模型,专为大规模高效训练而设计,能够利用 1000 万个公开可用的形状。在技​​术方面,我们首先创新了小波树表示,通过制定子带系数滤波方案来有效地利用系数关系来对形状进行紧凑编码。然后,我们通过设计子带系数打包方案以在低分辨率网格中布局表示,从而使表示可由扩散模型生成。此外,我们推导了子带自适应训练策略来训练我们的模型,以有效地学习生成粗略和细节小波系数。最后,我们扩展了我们的框架,使其能够通过额外的输入条件进行控制,使其能够从各种模式生成形状,例如单个多视图图像、点云和低分辨率体素。在我们广泛的实验中,我们演示了各种应用,例如各种模式上的无条件生成、形状完成和条件生成。

Learned Image resizing with efficient training (LRET) facilitates improved performance of large-scale digital histopathology image classification models
Authors Md Zahangir Alom, Quynh T. Tran, Brent A. Orr
组织学检查在肿瘤学研究和诊断中起着至关重要的作用。 WSI 对整个幻灯片图像进行数字扫描的采用为利用基于深度学习的图像分类方法来增强诊断和风险分层创造了机会。当前深度卷积神经网络 DCNN 训练方法的技术局限性导致模型性能不佳,并且无法训练和部署综合分类模型。在这项研究中,我们引入了一种新方法,可以解决传统组织病理学分类模型训练的主要局限性。

PhotoBot: Reference-Guided Interactive Photography via Natural Language
Authors Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, Gregory Dudek
我们介绍 PhotoBot,这是一个基于高级人类语言指导和机器人摄影师之间相互作用的自动照片采集框架。我们建议通过从精选图库中检索的参考图片向用户传达摄影建议。我们利用视觉语言模型 VLM 和对象检测器通过文本描述来表征参考图片,并使用大型语言模型 LLM 通过基于文本的推理根据用户的语言查询来检索相关参考图片。为了对应参考图片和观察到的场景,我们利用视觉转换器的预训练特征,该特征能够捕获显着变化的图像之间的语义相似性。使用这些功能,我们通过解决透视 n 点 PnP 问题来计算 RGB D 相机的姿态调整。我们在配备腕部摄像头的现实世界操纵器上展示了我们的方法。

Helmholtz-Decomposition and Optical Flow: A new method to characterize GCamP recordings
Authors Michael Gerstenberger, Dominic Juestel, Silviu Bodea
在深度睡眠和麻醉状态下,皮层激活的自发模式经常采取缓慢行波的形式。慢波睡眠是一种重要的认知状态,特别是因为它与记忆巩固相关。然而,尽管进行了广泛的研究,但确切的机制仍然知之甚少。 GCamP 活性的高速宽场成像等新方法提供了新的潜力。在这里,我们展示了如何处理麻醉下转基因小鼠记录的数据,以分析水流的来源、汇和模式。为了尽可能地利用数据,需要新颖的数据处理手段。因此,我们 1 简要介绍了在生成慢波中发挥作用的过程,并演示 2 一种在 GCamP 记录中表征其模式的新方法。虽然慢波变化很大,但它表明有些慢波惊人地相似。为了实现定量分析和检查此类原型事件的结构,我们提出了一种表征慢波的新方法:基于像素密集 GCamP 对比度 df f 的密集光流梯度的亥姆霍兹分解。它可以检测激活的源和汇,并从神经流的全局模式中辨别它们。可以使用变分自动编码器来分析聚合特征。结果揭示了慢波之间的规律,并显示了它们与实验条件的关系。

Fast Registration of Photorealistic Avatars for VR Facial Animation
Authors Chaitanya Patel, Shaojie Bai, Te Li Wang, Jason Saragih, Shih En Wei
虚拟现实 VR 有望带来比其他媒体更身临其境的社交互动。其中的关键是能够在佩戴 VR 耳机时准确地制作出逼真的头像动画。尽管可以在离线设置中将特定于人的化身高质量注册到耳机安装的相机 HMC 图像,但通用实时模型的性能显着下降。由于倾斜的摄像机视图和模式的差异,在线注册也具有挑战性。在这项工作中,我们首先表明,头像和耳机相机图像之间的域间隙是困难的主要来源之一,其中基于变压器的架构在域一致数据上实现了高精度,但在重新引入域间隙时会降低。基于这一发现,我们开发了一种系统设计,将问题分解为两个部分:1 一个接受域输入的迭代细化模块,2 一个通用化身引导图像到图像风格转换模块,该模块以当前表情和头部估计为条件姿势。这两个模块相互加强,因为当显示接近真实示例时,图像风格转换变得更容易,并且更好的域间隙消除有助于注册。我们的系统可以高效地产生高质量的结果,无需昂贵的离线注册即可生成个性化标签。

One Step Learning, One Step Review
Authors Xiaolong Huang, Qiankun Li, Xueran Li, Xuesong Gao
随着预训练视觉模型的兴起,视觉微调引起了人们的广泛关注。目前流行的方法是完全微调,由于它只专注于拟合下游训练集,因此存在知识遗忘的问题。在本文中,我们提出了一种新颖的基于权重回滚的微调方法,称为 OLOR 一步学习,一步回顾。 OLOR 将微调与优化器相结合,在每一步将权重回滚项合并到权重更新项中。这保证了上下游模型权重范围的一致性,有效减少知识遗忘并增强微调性能。此外,还提出了逐层惩罚,以采用惩罚衰减和多样化衰减率来调整层的权重回滚级别,以适应不同的下游任务。通过对图像分类、对象检测、语义分割和实例分割等各种任务的广泛实验,我们证明了我们提出的 OLOR 的一般适用性和最先进的性能。

OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics
Authors Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
近年来,视觉、语言和机器人领域取得了显着进展。我们现在拥有能够基于语言查询识别物体的视觉模型、能够有效控制移动系统的导航系统以及能够处理各种物体的抓取模型。尽管取得了这些进步,机器人技术的通用应用仍然落后,尽管它们依赖于识别、导航和抓取等基本功能。在本文中,我们采用系统优先的方法来开发一种新的基于开放知识的机器人框架,称为 OK Robot。通过结合用于物体检测的视觉语言模型 VLM、用于移动的导航原语以及用于物体操作的抓取原语,OK Robot 为拾取和放置操作提供了集成解决方案,无需任何培训。为了评估其性能,我们在 10 个真实的家庭环境中运行 OK Robot。结果表明,OK Robot 在开放式拾取和放置任务中实现了 58.5 的成功率,代表了开放词汇移动操作 OVMM 的最新技术水平,性能是之前工作的近 1.8 倍。在更干净、整洁的环境中,OK Robot 的性能提高到 82 。然而,从 OK Robot 获得的最重要的见解是将 VLM 等开放知识系统与机器人模块相结合时,细微差别的关键作用。

VRMN-bD: A Multi-modal Natural Behavior Dataset of Immersive Human Fear Responses in VR Stand-up Interactive Games
Authors He Zhang, Xinyang Li, Yuanxi Sun, Xinyi Fu, Christine Qiu, John M. Carroll
理解和识别情绪是虚拟宇宙时代重要且具有挑战性的问题。在虚拟现实VR环境中理解、识别和预测恐惧作为人类基本情感之一,在沉浸式游戏开发、场景开发和下一代虚拟人机交互应用中发挥着至关重要的作用。在本文中,我们以 VR 恐怖游戏为媒介,通过收集 23 名玩家的多模态数据姿势、音频和生理信号来分析恐惧情绪。我们使用基于 LSTM 的模型来预测恐惧,在 6 级分类无恐惧和 5 个不同级别的恐惧以及 2 级分类无恐惧和恐惧下,准确率分别为 65.31 和 90.47。我们构建了沉浸式人类恐惧反应 VRMN bD 的多模态自然行为数据集,并将其与现有的相关高级数据集进行了比较。结果表明,我们的数据集在收集方法、数据规模和受众范围方面的限制较少。我们在针对 VR 站立交互环境中的恐惧和行为的多模态数据集方面具有独特性和先进性。此外,我们还讨论了这项工作对社区和应用程序的影响。

DeepCERES: A Deep learning method for cerebellar lobule segmentation using ultra-high resolution multimodal MRI
Authors Sergio Morell Ortega, Marina Ruiz Perez, Marien Gadea, Roberto Vivo Hernando, Gregorio Rubio, Fernando Aparici, Mariam de la Iglesia Vaya, Gwenaelle Catheline, Pierrick Coup , Jos V. Manj n
本文介绍了一种新颖的多模态、高分辨率人脑小脑小叶分割方法。与当前以标准分辨率 1 文本毫米 3 或使用单模态数据运行的工具不同,所提出的方法通过使用多模态和超高分辨率 0.125 文本毫米 3 训练数据集来改进小脑小叶分割。为了开发该方法,首先创建半自动标记小脑小叶的数据库,以使用超高分辨率 T1 和 T2 MR 图像来训练所提出的方法。然后,设计和开发了一个深度网络集合,使所提出的方法能够在复杂的小脑小叶分割任务中表现出色,提高精度,同时提高内存效率。值得注意的是,我们的方法通过探索替代架构来偏离传统的 U Net 模型。我们还将深度学习与经典机器学习方法相结合,结合了多图谱分割的先验知识,从而提高了精度和鲁棒性。

HomeRobot Open Vocabulary Mobile Manipulation Challenge 2023 Participant Report (Team KuzHum)
Authors Volodymyr Kuzma, Vladyslav Humennyy, Ruslan Partsey
我们报告了 NeurIPS 2023 HomeRobot Open Vocabulary Mobile Manipulation OVMM Challenge 强化学习基线的改进。更具体地说,我们提出了更准确的语义分割模块,以及更好的位置技能策略和高级启发式算法,在挑战的测试标准拆分上,总体成功率提高了 2.4 倍,部分成功率提高了 8.2 倍,提高了 1.75 倍。数据集。

Momentum-SAM: Sharpness Aware Minimization without Computational Overhead
Authors Marlon Becker, Frederick Altrock, Benjamin Risse
最近提出的深度神经网络锐度感知最小化 SAM 优化算法建议在梯度计算之前通过梯度上升步骤扰动参数,以引导优化进入平坦损失的参数空间区域。虽然可以证明显着的泛化改进,从而减少过拟合,但由于额外需要梯度计算,计算成本加倍,使得 SAM 在计算能力有限的情况下不可行。受 Nesterov 加速梯度 NAG 的启发,我们提出了 Momentum SAM MSAM ,它在累积动量向量的方向上扰动参数,以实现低锐度,而不需要比 SGD 或 Adam 显着的计算开销或内存需求。我们详细评估了 MSAM,并揭示了 NAG、SAM 和 MSAM 在训练优化和泛化方面的可分离机制的见解。

Robustness to distribution shifts of compressed networks for edge devices
Authors Lulan Shen, Ali Edalati, Brett Meyer, Warren Gross, James J. Clark
有必要开发部署在计算资源有限的边缘设备上的高效 DNN。然而,压缩网络通常在目标域中执行新任务,该目标域与训练原始网络的源域不同。研究压缩网络在两种类型的数据分布变化、域变化和对抗性扰动中的鲁棒性非常重要。在这项研究中,我们发现压缩模型对分布变化的鲁棒性不如原始网络。有趣的是,较大的网络比较小的网络更容易失去鲁棒性,即使它们被压缩到与较小的网络相似的大小。此外,通过知识蒸馏获得的紧凑网络比修剪网络对分布变化具有更强的鲁棒性。

Scaling Face Interaction Graph Networks to Real World Scenes
Authors Tatiana Lopez Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
准确模拟现实世界的物体动力学对于机器人、工程、图形和设计等各种应用至关重要。为了更好地捕捉接触和摩擦等复杂的真实动态,基于图网络的学习模拟器最近显示出了巨大的前景。然而,将这些学习的模拟器应用于真实场景会带来两个主要挑战,首先,扩展学习的模拟器以处理现实世界场景的复杂性,其中可能涉及数百个对象,每个对象都具有复杂的 3D 形状,其次,处理来自感知而不是 3D 状态的输入信息。在这里,我们介绍一种方法,可以大大减少运行基于图的学​​习模拟器所需的内存。基于这种内存高效的模拟模型,我们以可编辑 NeRF 的形式呈现一个感知界面,它可以将现实世界场景转换为可由图网络模拟器处理的结构化表示。我们表明,我们的方法使用的内存比以前基于图形的模拟器要少得多,同时保持其准确性,并且在合成环境中学习的模拟器可以应用于从多个摄像机角度捕获的现实世界场景。

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
Authors Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu
随着大型多模态模型 LMM 的能力不断进步,评估 LMM 性能的需求也日益增长。此外,在汉语等非英语环境中评估 LMM 的高级知识和推理能力存在更大的差距。我们引入了 CMMMU,这是一种新的中文大规模多学科多模态理解基准,旨在评估 LMM 在中国背景下需要大学水平学科知识和深思熟虑推理的任务。

Benchmarking Large Multimodal Models against Common Corruptions
Authors Jiawei Zhang, Tianyu Pang, Chao Du, Yi Ren, Bo Li, Min Lin
本技术报告旨在通过专门检查大型多模式模型 LMM 遭受常见腐败时输出的自我一致性来填补评估的缺陷。我们研究文本、图像和语音之间的跨模式交互,包括四个基本生成任务:文本到图像、图像到文本、文本到语音和语音到文本。我们创建了一个名为 MMCBench 的综合基准测试,涵盖 100 多个流行的 LMM,总共超过 150 个模型检查点。对常见损坏进行彻底评估对于实际部署至关重要,并且有助于更好地了解尖端 LMM 的可靠性。

A Training-Free Defense Framework for Robust Learned Image Compression
Authors Myungseo Song, Jinyoung Choi, Bohyung Han
我们研究了学习图像压缩模型针对对抗性攻击的鲁棒性,并提出了一种基于简单图像变换函数的免训练防御技术。最近学习的图像压缩模型很容易受到对抗性攻击,从而导致压缩率低、重建质量低或奇怪的伪影。为了解决这些限制,我们提出了一种简单但有效的具有随机输入变换的双向压缩算法,该算法可以方便地应用于现有的图像压缩模型。与原始方法不同,我们的方法保留了模型在干净图像上的原始率失真性能。此外,所提出的算法不需要额外的训练或修改现有模型,使其更加实用。

LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution
Authors Feiwei Qin, Kang Yan, Changmiao Wang, Ruiquan Ge, Yong Peng, Kai Zhang
鉴于红外技术在各个领域的广泛应用,人们越来越重视在深度学习领域研究红外图像的超分辨率技术。尽管当前基于 Transformer 的方法在图像超分辨率任务中取得了令人印象深刻的结果,但它们对 Transformer 架构固有的自关注机制的依赖导致图像被视为一维序列,从而忽略了其固有的二维结构。此外,红外图像呈现出均匀的像素分布和有限的梯度范围,这给模型捕获有效的特征信息带来了挑战。因此,我们建议使用一种有效的 Transformer 模型,称为 Large Kernel Transformer LKFormer 来解决这个问题。具体来说,我们设计了一个具有线性复杂度的大内核残差深度卷积注意力LKRDA模块。这主要采用具有大内核的深度卷积来执行非局部特征建模,从而取代标准的自注意力层。此外,我们还设计了一种新颖的前馈网络结构,称为门控像素前馈网络 GPFN,以增强 LKFormer 管理网络内信息流的能力。

MOSformer: Momentum encoder-based inter-slice fusion transformer for medical image segmentation
Authors De Xing Huang, Xiao Hu Zhou, Xiao Liang Xie, Shi Qi Liu, Zhen Qiu Feng, Mei Jiang Gui, Hao Li, Tian Yu Xiang, Xiu Ling Liu, Zeng Guang Hou
医学图像分割在各种临床应用中占有重要地位。深度学习已成为体积医学图像自动分割的主要解决方案。基于 2.5D 的分割模型将基于 2D 的模型的计算效率和基于 3D 的模型的空间感知能力结合起来。然而,流行的基于 2.5D 的模型通常平等地对待每个切片,无法有效地学习和利用切片间信息,导致分割性能不佳。在本文中,提出了一种基于动量编码器的片间融合变压器MOSformer,通过利用不同编码器提取的多尺度特征图上的片间信息来克服这个问题。具体来说,采用双编码器来增强不同切片之间的特征可区分性。其中一个编码器进行移动平均以保持切片表示的一致性。此外,还开发了 IF Swin 变压器模块来融合片间多尺度特征。 MOSformer 在三个基准数据集 Synapse、ACDC 和 AMOS 上进行了评估,分别以 DSC 85.63、92.19 和 85.43 建立了新的技术水平。这些有希望的结果表明了其在医学图像分割方面的竞争力。

Detecting Out-of-Distribution Samples via Conditional Distribution Entropy with Optimal Transport
Authors Chuanwen Feng, Wenlong Chen, Ao Ke, Yilong Ren, Xike Xie, S.Kevin Zhou
在现实世界中部署训练有素的机器学习模型时,不可避免地要从分布式 OOD 源接收输入。例如,在持续学习环境中,由于域的非平稳性,经常会遇到 OOD 样本。更一般地说,当我们能够访问一组测试输入时,现有丰富的 OOD 检测解决方案,尤其是最近承诺的基于距离的方法,在有效利用来自训练样本和测试输入的分布信息方面存在不足。在本文中,我们认为,在存在可用测试输入的情况下,结合来自训练样本和测试输入的几何信息的经验概率分布对于 OOD 检测非常有益。为了解决这个问题,我们建议将 OOD 检测建模为离散最优传输问题。在最优传输的框架内,我们提出了一种称为 emph 条件分布熵的新颖评分函数,用于量化 OOD 样本测试输入的不确定性。我们的建议继承了某些基于距离的方法的优点,同时消除了对分布假设、先验知识和特定训练机制的依赖。

TIM: An Efficient Temporal Interaction Module for Spiking Transformer
Authors Sicheng Shen, Dongcheng Zhao, Guobin Shen, Yi Zeng
尖峰神经网络 SNN 作为第三代神经网络,因其生物学合理性和计算效率而闻名,特别是在处理不同的数据集方面。受神经网络架构进步的启发,注意力机制的整合导致了尖峰变压器的发展。这些在增强 SNN 功能方面显示出了希望,特别是在静态和神经形态数据集领域。尽管取得了进步,但这些系统中仍存在明显的差距,特别是尖峰自注意力 SSA 机制在利用 SNN 的时间处理潜力方面的有效性。为了解决这个问题,我们引入了时态交互模块 TIM,这是一种新颖的基于卷积的增强功能,旨在增强 SNN 架构中的时态数据处理能力。 TIM 与现有 SNN 框架的集成是无缝且高效的,需要最少的额外参数,同时显着增强其时态信息处理能力。

RTA-Former: Reverse Transformer Attention for Polyp Segmentation
Authors Zhikai Li, Murong Yi, Ali Uneri, Sihan Niu, Craig Jones
息肉分割是结直肠癌预防的一个关键方面,可以实现早期发现并指导后续治疗。人们广泛探索包括深度学习解决方案在内的智能诊断工具来简化这一过程并可能实现自动化。然而,即使有许多强大的网络架构,仍然存在产生准确边缘分割的问题。在本文中,我们介绍了一种新颖的网络,即 RTA Former,它采用 Transformer 模型作为编码器主干,并创新性地采用解码器中的 Transformer 级的反向注意力 RA 来增强边缘分割。实验结果表明,RTA Former 在五个息肉分割数据集中实现了最先进的 SOTA 性能。 RTA Former 的强大功能有望提高基于 Transformer 的息肉分割的准确性,从而有可能带来更好的临床决策和患者结果。

How Robust Are Energy-Based Models Trained With Equilibrium Propagation?
Authors Siddharth Mansingh, Michal Kucer, Garrett Kenyon, Juston Moore, Michael Teti
深度神经网络 DNN 很容易被人类无法察觉的对抗性扰动所愚弄。对抗性训练是将对抗性示例添加到训练集中的过程,是当前最先进的对抗性攻击防御方法,但它降低了模型在干净输入上的准确性,计算成本高昂,并且对自然噪声的鲁棒性较差。相比之下,基于能量的模型 EBM 专为在神经形态硬件和物理系统中高效实现而设计,结合了从每一层到前一层的反馈连接,产生了一个循环的、深度吸引子架构,我们假设该架构应该使它们自然稳健。我们的工作是第一个探索 EBM 对自然损坏和对抗性攻击的鲁棒性的工作,我们使用 CIFAR 10 和 CIFAR 100 数据集进行这项工作。

Task-specific regularization loss towards model calibration for reliable lung cancer detection
Authors Mehar Prateek Kalra, Mansi Singhal, Rohan Raju Dhanakashirur
肺癌是全球癌症相关死亡的重要原因之一。早期发现和治疗可以提高生存机会。传统上,CT 扫描用于提取最重要的肺部感染信息并诊断癌症。此过程由放射科专家手动执行。在印度这样的国家,放射科医生与人口比例的不平衡意味着他们面临着巨大的工作压力,因此需要将他们的一些职责自动化。现代深度神经网络容易犯过度自信的错误,这限制了它们在癌症检测中的应用。在本文中,我们提出了一种新的特定于任务的损失函数来校准神经网络,以降低过度自信错误的风险。我们使用最先进的多类置信度和准确性差异 MDCA 损失与所提出的任务特定损失函数来实现相同的目标。我们还通过在训练时间校准模型之上执行温度缩放来集成事后校准。

General Flow as Foundation Affordance for Scalable Robot Learning
Authors Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao
我们通过可扩展的框架解决了获取现实世界操作技能的挑战。受到大型语言模型法学硕士大规模自回归预测成功的启发,我们坚信,识别能够利用大规模数据集的适当预测目标对于实现高效、普遍的学习。因此,我们建议利用代表感兴趣对象上 3D 点的未来轨迹的流作为机器人学习中的理想预测目标。为了利用可扩展的数据资源,我们将注意力转向跨实施例数据集。我们首次直接从大规模 RGBD 人类视频数据集开发语言条件预测模型。我们的预测流提供了可操作的几何和物理指导,从而促进现实世界场景中稳定的零射击技能转移。我们使用基于闭环流预测的策略来部署我们的方法。值得注意的是,在没有任何额外训练的情况下,我们的方法在人机技能转移方面取得了令人印象深刻的 81 成功率,涵盖 6 个场景中的 18 项任务。我们的框架具有以下优势: 1 利用跨实施例数据资源的可扩展性 2 通用性多个对象类别,包括刚性、铰接式和软体 3 稳定的技能转移提供可操作的指导,推理领域差距较小。这些为可扩展的通用机器人学习开辟了一条新途径。

Visual Imitation Learning with Calibrated Contrastive Representation
Authors Yunke Wang, Linwei Tao, Bo Du, Yutian Lin, Chang Xu
对抗性模仿学习 AIL 允许代理以低维状态和动作重现专家行为。然而,由于与低维本体感受特征相比,视觉状态的表示不太明显,因此在处理视觉状态时出现了挑战。虽然现有方法采用复杂的网络架构或将学习表示和决策的过程分开,但它们忽略了演示中有价值的内部代理信息。为了解决这个问题,本文提出了一种简单有效的解决方案,将校准对比代表性学习纳入视觉AIL框架中。具体来说,我们在视觉 AIL 中提出了一种图像编码器,利用无监督和监督对比学习的组合从视觉状态中提取有价值的特征。基于改进后的代理经常产生不同质量的演示的事实,我们建议通过将每个代理演示视为混合样本来校准对比损失。对比学习的结合可以与 AIL 框架联合优化,而无需修改架构或产生大量计算成本。

Diffusion Model Conditioning on Gaussian Mixture Model and Negative Gaussian Mixture Gradient
Authors Weiguo Lu, Xuan Wu, Deng Ding, Jinqiao Duan, Jirong Zhuang, Gangnan Yuan
扩散模型 DM 是一种生成模型,对图像合成及其他领域具有巨大影响。他们在各种生成任务中实现了最先进的生成结果。可以使用多种调节输入(例如文本或边界框)来控制生成。在这项工作中,我们提出了一种利用高斯混合模型 GMM 作为特征调节来指导去噪过程的调节机制。基于集合论,我们提供了全面的理论分析,表明基于特征和类别的条件潜在分布有显着不同,因此特征上的条件潜在分布比类别上的条件潜在分布产生的缺陷更少。分别训练两个以高斯混合模型为条件的扩散模型进行比较。实验支持我们的发现。提出了一种称为负高斯混合梯度 NGMG 的新型梯度函数,并将其应用于具有附加分类器的扩散模型训练。训练稳定性有所提高。

Equivariant Multiscale Learned Invertible Reconstruction for Cone Beam CT
Authors Nikita Moriakov, Jan Jakob Sonke, Jonas Teuwen
锥形束CT CBCT是当今重要的成像方式,但CBCT的图像质量仍然落后于传统计算机断层扫描建立的高质量标准。我们提出了 LIRE,一种用于快速且内存高效的 CBCT 重建的学习迭代方案,它是最近提出的 LIRE 方法的更快、参数更高效的替代方案。 LIRE 是一种用于 CBCT 重建的旋转等变多尺度学习可逆原始对偶迭代方案。通过依赖原始对偶单元中的简单可逆残差网络以及前向和后向传递过程中单元内部的分片计算来优化内存使用,同时通过使原始对偶方案多尺度来提高推理速度,以便重建过程以低分辨率开始并具有低分辨率原始双潜在向量。 LIRE 模型在一组 260 个 22 胸部 CT 扫描上进行训练和验证,并使用一组 142 个胸部 CT 扫描进行测试,并对一组 79 个头颈 HN CT 扫描进行分布外的微调和微调。我们的方法在胸部测试集上超越了经典和深度学习基线,包括 LIRE。对于相似的推理时间和仅 37 个参数预算,LIRE 比 LIRE 实现了 0.2 dB PSNR 改进,同时能够在 45 个更少的推理时间和 28 个参数预算的情况下与 LIRE 的性能相匹配。旋转等方差确保了 LIRE 对患者方向的鲁棒性,而当患者方向异常时,LIRE 和其他深度学习基线的性能会大幅下降。

Susceptibility of Adversarial Attack on Medical Image Segmentation Models
Authors Zhongxuan Wang, Leo Xu
深度神经网络的性质引发了各种攻击,但很少有工作来解决对抗性攻击对 MRI 数据集训练的分割模型的影响。鉴于此类攻击可能造成的严重后果,我们探索了 U Net 系列的四种模型,并检查了它们对快速梯度符号法 FGSM 攻击的响应。我们对它们中的每一个进行 FGSM 攻击,并尝试各种方案来进行攻击。在本文中,我们发现医学成像分割模型确实容易受到对抗性攻击,并且参数大小和对抗性攻击成功之间的相关性可以忽略不计。此外,我们表明,使用与训练中使用的损失函数不同的损失函数会产生更高的对抗性攻击成功率,这与 FGSM 作者的建议相反。在未来的工作中,我们将使用更多的分割模型和不同的攻击来进行本文详细介绍的实验。我们还将尝试找到通过使用模型集成或特殊数据增强来抵消攻击的方法。

Gaussian Adaptive Attention is All You Need: Robust Contextual Representations Across Multiple Modalities
Authors Georgios Ioannides, Aman Chadha, Aaron Elkins
我们提出了多头高斯自适应注意力机制 GAAM(一种新颖的概率注意力框架)和高斯自适应变换器 GAT(旨在增强跨多种模式(包括语音、文本和视觉)的信息聚合)。 GAAM 将可学习的均值和方差集成到其注意力机制中,并在多头框架中实现,使其能够对任何概率分布进行集体建模,以动态重新校准特征重要性。该方法展示了显着的改进,特别是对于高度不稳定的数据,通过识别特征空间内的关键元素,模型性能超过了最先进的注意力技术,准确度高达约 20。 GAAM 与基于点积的注意力模型和相对较少的参数的兼容性展示了其适应性和提升现有注意力框架的潜力。根据经验,GAAM 在各种任务中表现出卓越的适应性和有效性,包括语音中的情感识别、图像分类和文本分类,从而确立了其在处理多模态数据方面的鲁棒性和多功能性。此外,我们还引入了重要性因子 IF,这是一种新的基于学习的指标,可增强使用基于 GAAM 的方法训练的模型的可解释性。

HOSC: A Periodic Activation Function for Preserving Sharp Features in Implicit Neural Representations
Authors Danzel Serrano, Jakub Szymkowiak, Przemyslaw Musialski
最近提出的使用基于坐标的神经网络架构隐式表示信号(例如图像、场景或几何图形)的方法通常不利用激活函数的选择,或者仅在有限的程度上利用激活函数的选择。在本文中,我们介绍了双曲振荡函数 HOSC,这是一种具有可控锐度参数的新型激活函数。与之前的任何激活不同,HOSC 经过专门设计,可以更好地捕获输入信号的突然变化,从而捕获基础数据的尖锐或尖锐特征,以及平滑的低频转换。由于其简单性和模块化,HOSC 提供了即插即用功能,可以轻松地合并到任何使用神经网络作为隐式表示信号的方式的现有方法中。

A VR Serious Game to Increase Empathy towards Students with Phonological Dyslexia
Authors Jos M. Alcalde Llergo, Enrique Yeguas Bol var, Pilar Aparicio Mart nez, Andrea Zingoni, Juri Taborri, Sara Pinzi
阅读障碍是一种神经发育障碍,估计影响大约五十分之一的人口。特别是,语音阅读障碍会导致单词发音与其书面形式的连接出现问题。这就造成了阅读速度慢、阅读不准确、生词译码困难等困难。此外,阅读障碍对于学生来说也可能是一种具有挑战性和令人沮丧的经历,因为他们可能会感到被同龄人或教育工作者误解或侮辱。由于这些原因,使用补偿工具和策略对于阅读困难学生获得与非阅读困难学生相同的机会至关重要。然而,人们普遍低估了这个问题,并且没有意识到支持方法的重要性。有鉴于此,本文的主要目的是提出一种虚拟现实 VR 严肃游戏,通过该游戏,教师、学生和一般非阅读障碍者可以了解阅读障碍学生的一些问题及其基本用途为他们提供支持。在游戏中,玩家必须按照字母表中的配方来制作药剂,该配方是专门为复制患有阅读障碍的人所经历的阅读困难而设计的。

PuriDefense: Randomized Local Implicit Adversarial Purification for Defending Black-box Query-based Attacks
Authors Ping Guo, Zhiyuan Yang, Xi Lin, Qingchuan Zhao, Qingfu Zhang
基于黑盒查询的攻击对机器学习即服务 MLaaS 系统构成重大威胁,因为它们可以在不访问目标模型架构和参数的情况下生成对抗性示例。传统的防御机制,例如对抗性训练、梯度掩蔽和输入转换,要么会增加大量的计算成本,要么会损害非对抗性输入的测试准确性。为了应对这些挑战,我们提出了一种有效的防御机制 PuriDefense,该机制采用随机补丁明智的纯化以及低推理成本水平的轻量级纯化模型集合。这些模型利用局部隐函数并重建自然图像流形。我们的理论分析表明,这种方法通过将随机性纳入净化中,减慢了基于查询的攻击的收敛速度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 19
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值