【AI视野·今日CV 计算机视觉论文速览第270期】Wed, 18 Oct 2023

本文链接：https://blog.csdn.net/u014636245/article/details/134017187

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 18 Oct 2023
Totally 60 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

4K4D: Real-Time 4D View Synthesis at 4K Resolution
Authors Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou
本文的目标是 4K 分辨率动态 3D 场景的高保真度和实时视图合成。最近，一些动态视图合成方法已经显示出令人印象深刻的渲染质量。然而，在渲染高分辨率图像时，它们的速度仍然受到限制。为了克服这个问题，我们提出了 4K4D，这是一种支持硬件光栅化并实现前所未有的渲染速度的 4D 点云表示。我们的表示建立在 4D 特征网格上，因此点自然正则化并且可以稳健优化。此外，我们设计了一种新颖的混合外观模型，可以在保持效率的同时显着提高渲染质量。此外，我们开发了一种可微的深度剥离算法，可以有效地从 RGB 视频中学习所提出的模型。实验表明，我们的表示可以使用 RTX 4090 GPU 在 1080p 分辨率的 DNA 渲染数据集上以超过 400 FPS 的速度渲染，在 4K 分辨率的 ENeRF Outdoor 数据集上以超过 400 FPS 的速度渲染，这比以前的方法快 30 倍，并达到了艺术渲染质量。

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
Authors Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
我们提出了 Set of Mark SoM，一种新的视觉提示方法，以释放大型多模态模型 LMM（例如 GPT 4V）的视觉基础能力。如图 1 右所示，我们采用现成的交互式分割模型（例如 SAM）将图像划分为不同粒度级别的区域，并用一组标记（例如字母数字、掩码、框）覆盖这些区域。使用标记的图像作为输入，GPT 4V 可以回答需要视觉基础的问题。我们进行了全面的实证研究，以验证 SoM 在各种细粒度视觉和多模态任务上的有效性。

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
Authors Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan
近年来，视觉和语言生成模型已经过度发展。对于视频生成，发布了各种开源模型和公共可用服务来生成高视觉质量的视频。然而，这些方法通常使用一些学术指标（例如 FVD 或 IS）来评估性能。我们认为，很难从简单的指标来判断大型条件生成模型，因为这些模型通常是在具有多方面能力的非常大的数据集上进行训练的。因此，我们提出了一个新的框架和管道来详尽地评估生成视频的性能。为了实现这一目标，我们首先借助大语言模型分析现实世界的提示列表，为文本到视频生成生成新的提示列表。然后，我们在精心设计的基准上评估最先进的视频生成模型，包括视觉质量、内容质量、运动质量和文本标题对齐与大约 18 个客观指标。为了获得模型的最终排行榜，我们还拟合了一系列系数，以使客观指标与用户意见保持一致。

Revisiting Map Relations for Unsupervised Non-Rigid Shape Matching
Authors Dongliang Cao, Paul Roetzer, Florian Bernard
我们提出了一种用于非刚性 3D 形状匹配的新型无监督学习方法。我们的方法改进了最新的深度功能图方法，并且可以应用于各种不同的具有挑战性的场景。以前的深度功能图方法主要侧重于特征提取，专门旨在为功能图计算获得更具表现力的特征。然而，功能图计算本身的重要性经常被忽视，并且功能图和逐点图之间的关系未被充分探索。在本文中，我们系统地研究了功能图求解器的功能图与基于特征相似性的逐点图之间的耦合关系。为此，我们提出了一种自适应功能图解算器，以针对不同的形状匹配场景调整功能图正则化，并结合顶点对比损失来获得更具辨别力的特征。

VcT: Visual change Transformer for Remote Sensing Image Change Detection
Authors Bo Jiang, Zitian Wang, Xixi Wang, Ziyan Zhang, Lan Chen, Xiao Wang, Bin Luo
现有的视觉变化检测器通常采用 CNN 或 Transformer 进行特征表示学习，并专注于学习图像之间变化区域的有效表示。尽管通过增强变化区域的特征可以获得良好的性能，但是，这些工作仍然受到限制，主要是由于忽视了挖掘未变化的背景上下文信息。众所周知，变化检测的一个主要挑战是如何获得涉及不同变化（例如空间变化、阳光强度等）的两幅图像的一致表示。在这项工作中，我们证明仔细挖掘共同的背景信息可以提供重要的信息。提示学习两个图像的一致表示，这显然有利于视觉变化检测问题。基于这一观察，我们提出了一种新颖的视觉变化 Transformer VcT 模型来解决视觉变化检测问题。具体来说，首先使用共享主干网络来提取给定图像对的特征图。然后，将特征图的每个像素视为图节点，并提出图神经网络对结构化信息进行建模，以进行粗变化图预测。可以从地图中挖掘前 K 个可靠标记，并使用聚类算法进行细化。然后，首先利用自交叉注意方案，然后通过锚定主要注意学习模块与原始特征进行交互，从而增强这些可靠的标记。最后，提出了预测头以获得更准确的变化图。

Towards Automatic Satellite Images Captions Generation Using Large Language Models
Authors Yingxu He, Qiqi Sun
自动图像字幕是一种使用自然语言传达视觉信息的有前途的技术。它可以使卫星遥感中的各种任务受益，例如环境监测、资源管理、灾害管理等。然而，该领域的主要挑战之一是缺乏大规模图像字幕数据集，因为它们需要大量的人力专业知识和努力创造。最近对大型语言模型法学硕士的研究已经证明了它们在自然语言理解和生成任务中的令人印象深刻的表现。尽管如此，它们中的大多数都无法处理 GPT 3.5、Falcon、Claude 等图像，而在一般地景图像上预训练的传统字幕模型通常无法为航拍图像 BLIP、GIT、CM3、CM3Leon 等生成详细且准确的字幕。。为了解决这个问题，我们提出了一种新方法自动遥感图像字幕 ARSIC，通过指导法学硕士描述其对象注释来自动收集遥感图像的字幕。我们还提出了一个基准模型，该模型采用预先训练的生成图像到文本模型 GIT 来为遥感图像生成高质量的标题。

A voxel-level approach to brain age prediction: A method to assess regional brain aging
Authors Neha Gianchandani, Mahsa Dibaji, Johanna Ospel, Fernando Vega, Mariana Bento, M. Ethan MacDonald, Roberto Souza
大脑衰老是一种区域性现象，在使用机器学习方法进行大脑年龄预测研究领域中，这一方面的探索相对较少。体素水平预测可以提供局部大脑年龄估计，从而提供对区域衰老过程的精细洞察。这对于了解健康受试者与患病受试者衰老轨迹的差异至关重要。在这项工作中，提出了一种基于深度学习的多任务模型，用于根据 T1 加权磁共振图像进行体素级脑年龄预测。所提出的模型优于文献中现有的模型，并且在应用于健康和患病人群时产生有价值的临床见解。对体素水平的大脑年龄预测进行区域分析，以了解大脑中已知解剖区域的衰老轨迹，并表明健康受试者的区域衰老轨迹与患有潜在神经系统疾病（例如痴呆症，更具体地说是阿尔茨海默病）的受试者相比存在差异的疾病。

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing
Authors Hao Lu, Yunpeng Zhang, Qing Lian, Dalong Du, Yingcong Chen
使用多个摄像头检测 3D 空间中的物体（称为多摄像头 3D 物体检测 MC3D Det）随着鸟瞰 BEV 方法的出现而受到重视。然而，由于缺乏包含各种观点和环境的多样化训练数据，这些方法在面对不熟悉的测试环境时往往会遇到困难。为了解决这个问题，我们提出了一种新颖的方法，将 3D 检测与 2D 相机平面结果对齐，确保检测的一致和准确。我们的框架以视角消除偏差为基础，有助于学习适应领域变化的特征。在我们的方法中，我们根据 BEV 特征渲染不同的视图地图，并纠正这些地图的透视偏差，利用隐式前景体积来桥接相机和 BEV 平面。这两个步骤的过程促进了视角和上下文无关特征的学习，这对于跨不同视点、相机参数和环境条件的准确物体检测至关重要。值得注意的是，我们的模型不可知方法保留了原始的网络结构，而不会产生额外的推理成本，从而促进了各种模型的无缝集成并简化了部署。此外，我们还表明，当仅使用虚拟数据集进行训练时，我们的方法在真实数据中取得了令人满意的结果，从而消除了对真实场景注释的需要。领域泛化 DG 和无监督领域适应 UDA 的实验结果清楚地证明了其有效性。

Dual Cognitive Architecture: Incorporating Biases and Multi-Memory Systems for Lifelong Learning
Authors Shruthi Gowda, Bahram Zonooz, Elahe Arani
人工神经网络 ANN 在固定独立数据方面表现出狭窄的专业知识范围。然而，现实世界中的数据是连续的、动态的，人工神经网络必须适应新的场景，同时保留学到的知识，成为终身学习者。人类在这些任务上表现出色的能力可以归因于多种因素，包括认知计算结构、认知偏差和大脑中的多记忆系统。我们结合了其中的关键概念来设计一个新颖的框架，即双重认知架构 DUCA，其中包括多个子系统、隐式和显式知识表示二分法、归纳偏差和多记忆系统。 DUCA 中的归纳偏差学习器有助于编码形状信息，有效对抗 ANN 学习局部纹理的趋势。同时，语义记忆子模块的包含有助于知识的逐步巩固，复制在快速和慢速学习系统中观察到的动态，让人想起支撑人类认知中互补学习系统的原理。 DUCA 在不同的设置和数据集上显示出改进，并且还表现出减少的任务新近度偏差，而不需要额外的信息。为了进一步测试终身学习方法在具有挑战性的分布变化上的多功能性，我们引入了一种新颖的领域增量数据集 DN4IL。

MonoSKD: General Distillation Framework for Monocular 3D Object Detection via Spearman Correlation Coefficient
Authors Sen Wang, Jin Zheng
单目 3D 对象检测本质上是一个不适定问题，因为从单个图像预测准确的 3D 定位具有挑战性。现有的单目3D检测知识蒸馏方法通常将LiDAR投影到图像平面上并相应地训练教师网络。将基于 LiDAR 的模型知识转移到基于 RGB 的模型更加复杂，因此需要通用的蒸馏策略。为了缓解跨模态问题，我们提出了 MonoSKD，一种基于 Spearman 相关系数的单目 3D 检测的新型知识蒸馏框架，用于学习跨模态特征之间的相对相关性。考虑到这些特征之间存在较大差距，特征的严格对齐可能会误导训练，因此我们提出了更宽松的Spearman损失。此外，通过选择适当的蒸馏位置并删除冗余模块，我们的方案比现有方法节省了更多的 GPU 资源并且训练速度更快。我们进行了大量的实验来验证我们的框架在具有挑战性的 KITTI 3D 对象检测基准上的有效性。我们的方法在提交之前实现了最先进的性能，无需额外的推理计算成本。

Multi Self-supervised Pre-fine-tuned Transformer Fusion for Better Intelligent Transportation Detection
Authors Juwu Zheng, Jiangtao Ren
智能交通系统结合先进的信息技术，为现代交通提供监控、检测、预警等智能化服务。智能交通检测是许多智能交通服务的基石，通过对象检测方法识别任务目标。然而，智能交通中现有的检测方法受到两个方面的限制。首先，在大规模数据集上预训练的模型知识与目标任务所需的知识之间存在差异。其次，大多数检测模型遵循单源学习的模式，这限制了学习能力。为了解决这些问题，我们提出了一种多自监督预微调 Transformer Fusion MSPTF 网络，由无监督预微调领域知识学习和多模型融合目标任务学习两个步骤组成。第一步，我们将自监督学习方法引入到 Transformer 模型预微调中，这可以降低数据成本并缩小预训练模型和目标任务之间的知识差距。第二步，考虑到不同模型架构和不同预微调任务之间的特征信息差异，提出多模型语义一致性交叉注意融合MSCCF网络，通过考虑通道语义一致性和特征向量语义一致性来组合不同的Transformer模型特征，为检测任务获得更完整、更合适的融合特征。

CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation
Authors Zhaojie Chu, Kailing Guo, Xiaofen Xing, Yilin Lan, Bolun Cai, Xiangmin Xu
语音驱动的 3D 面部动画是一项具有挑战性的跨模式任务，吸引了越来越多的研究兴趣。在说话活动期间，嘴部表现出强烈的运动，而其他面部区域通常表现出相对较弱的活动水平。现有的方法通常通过直接将单级语音特征映射到整个面部动画来简化过程，这忽略了面部活动强度的差异，导致面部运动过度平滑。在这项研究中，我们提出了一个新颖的框架 CorrTalk，它有效地建立了分层语音特征和不同区域不同强度的面部活动之间的时间相关性。定义了一种新颖的面部活动强度度量来区分强面部活动和弱面部活动，该度量是通过计算面部顶点位移的短时傅里叶变换获得的。基于面部活动的差异，我们提出了一种双分支解码框架来同步合成强和弱的面部活动，这保证了更宽强度的面部动画合成。此外，提出了一种加权分层特征编码器来建立分层语音特征和不同强度的面部活动之间的时间相关性，从而确保唇形同步和可信的面部表情。广泛的定性和定量实验以及用户研究表明，我们的 CorrTalk 优于现有的最先进方法。

Self-Supervised 3D Scene Flow Estimation and Motion Prediction using Local Rigidity Prior
Authors Ruibo Li, Chi Zhang, Zhe Wang, Chunhua Shen, Guosheng Lin
在本文中，我们研究了点云上的自监督 3D 场景流估计和类无关运动预测。现实场景可以很好地建模为刚性运动部件的集合，因此其场景流可以表示为这些单独部件的刚性运动的组合。基于这一观察，我们建议通过分段刚性运动估计生成用于自监督学习的伪场景流标签，其中源点云被分解为局部区域，并且每个区域被视为刚性的。通过将每个区域与目标点云中的潜在对应区域严格对齐，我们获得了区域特定的刚性变换来生成其伪流标签。为了减轻潜在异常值对标签生成的影响，在解决每个区域的刚性配准时，我们交替执行建立点对应关系、测量对应关系的置信度以及根据对应关系及其置信度更新刚性变换的三个步骤。因此，置信对应关系将主导标签生成，并且将为生成的伪标签导出有效性掩码。通过使用伪标签及其有效性掩码进行监督，可以以自我监督的方式训练模型。在 FlyingThings3D 和 KITTI 数据集上进行的大量实验表明，我们的方法在自监督场景流学习中实现了最先进的性能，无需任何地面真实场景流进行监督，甚至比一些有监督的同行表现更好。

An empirical study of automatic wildlife detection using drone thermal imaging and object detection
Authors Miao Chang, Tan Vuong, Manas Palaparthi, Lachlan Howell, Alessio Bonti, Mohamed Abdelrazek, Duc Thanh Nguyen
人工智能有潜力通过具有成本效益的方法收集和解释野生动物数据，为野生动物管理做出宝贵贡献。遥控飞机系统 RPAS 或无人机和热成像技术的最新进展创造了收集野生动物数据的新方法。这些新兴技术可以为标准费力的现场技术提供有前途的替代方案，并覆盖更大的区域。在这项研究中，我们对基于无人机的野生动物检测进行了全面的回顾和实证研究。具体来说，我们收集了无人机衍生的野生动物热探测的真实数据集。我们收集的数据中检测到的野生动物，包括树栖动物、考拉、灰树熊和地面栖息物种，均由专家通过边界框进行注释。然后，我们在收集的数据集上对最先进的对象检测算法进行基准测试。

LiDAR-based 4D Occupancy Completion and Forecasting
Authors Xinhao Liu, Moonjun Gong, Qi Fang, Haoyu Xie, Yiming Li, Hang Zhao, Chen Feng
场景完成和预测是自动驾驶汽车等移动代理研究中两个流行的感知问题。现有的方法孤立地处理这两个问题，导致对这两方面的看法不同。在本文中，我们在自动驾驶的背景下引入了一种新颖的 LiDAR 感知任务：占用完成和预测 OCF，以将这些方面统一到一个有凝聚力的框架中。这项任务需要新的算法来解决三个挑战：1 稀疏到密集重建，2 部分到完全幻觉，3 3D 到 4D 预测。为了进行监督和评估，我们从公共自动驾驶数据集中整理了一个名为 OCFBench 的大规模数据集。我们分析了密切相关的现有基线模型和我们自己的数据集上的性能。我们预计这项研究将激发并呼吁对 4D 感知这一不断发展的关键领域进行进一步研究。

Innovative Methods for Non-Destructive Inspection of Handwritten Documents
Authors Eleonora Breci 1 , Luca Guarnera 1 , Sebastiano Battiato 1 1 University of Catania
手写文档分析是法证科学的一个领域，其目标是通过检查固有特征来确定文档的作者身份。执法机构使用基于手动处理手写文档的标准协议。这种方法非常耗时，评估往往具有主观性，并且不可复制。为了克服这些限制，在本文中，我们提出了一个框架，能够使用图像处理和深度学习技术提取和分析与文本行高度、单词之间的间距和字符大小相关的手稿文档的内在度量。所涉及的每个文档的最终特征向量由收集的每种类型的度量的平均值和标准差组成。通过量化要比较的文档的特征向量之间的欧几里德距离，可以辨别作者身份。我们还提出了一个新的、具有挑战性的数据集，其中包含 124 名不同的人在纸质和数字设备上书写的 362 份手写手稿。我们的研究开创了传统手写文档与使用平板电脑等数字工具生成的文档之间的比较。

Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification
Authors Shuanglin Yan, Neng Dong, Jun Liu, Liyan Zhang, Jinhui Tang
文本到图像行人重新识别 TIReID 根据查询文本检索相同身份的行人图像。然而，现有的 TIReID 方法通常将其视为一对一的图像文本匹配问题，仅关注视图内图像文本对之间的关系。没有考虑同一身份下跨视图图像文本对之间的多对多匹配，这是现有方法性能不佳的主要原因之一。为此，我们提出了一个简单而有效的框架，称为 LCR 2 S，通过从新颖的角度学习两种模式的综合表示来对同一身份的多对多对应进行建模。我们通过使用同一身份下的其他图像文本为每个图像文本构建支持集，并设计一个多头注意力融合模块来融合图像文本及其支持集。由此产生的丰富图像和文本特征融合了来自多个视图的信息，这些信息经过对齐以训练具有多对多对应关系的更丰富的 TIReID 模型。由于在推理过程中支持集不可用，我们建议将更丰富的模型学到的知识提炼成轻量级模型，以单个图像文本作为输入进行推理。轻量级模型侧重于多视图信息的语义关联和推理，只需单个视图输入就可以生成包含多视图信息的综合表示，从而在推理过程中执行准确的文本到图像检索。特别是，我们使用更丰富模型的模态内特征和模态间语义关系来监督轻量级模型继承其强大的能力。

Improving Video Deepfake Detection: A DCT-Based Approach with Patch-Level Analysis
Authors Luca Guarnera 1 , Salvatore Manganello 1 , Sebastiano Battiato 1 1 University of Catania
“深度伪造”一词是指通过使用生成模型综合更改或从头开始创建的所有多媒体内容。由于使用越来越准确和高效的架构，能够呈现与真实内容无法区分的受操纵内容，这种现象已经变得普遍。为了打击非法使用这一强大技术，有必要开发能够区分合成内容和真实内容的算法。在这项研究中，提出了一种用于检测数字视频中的深度伪造的新算法，其主要目标是从取证的角度创建一种快速且可解释的方法。为了实现这一目标，提取了 I 帧，以便提供比文献中描述的方法更快的计算和分析。此外，为了识别各个视频帧内最具辨别力的区域，对整个帧、背景、面部、眼睛、鼻子、嘴巴和面部帧进行了单独分析。从离散余弦变换 DCT 中，从 AC 系数中提取 Beta 分量，并将其用作标准分类器（例如 k NN、SVM 等）的输入，以便识别对解决相关任务最具辨别力的频率。在 Faceforensics 和 Celeb DF v2 数据集上获得的实验结果表明，眼睛和嘴巴区域是最具辨别力的区域，能够比整个帧的分析更可靠地确定视频的性质。

Sparse Multi-Object Render-and-Compare
Authors Florian Langer, Ignas Budvytis, Roberto Cipolla
从单个图像重建静态物体的 3D 形状和姿态是机器人、增强现实和数字内容创建等各个行业的一项基本任务。这可以通过直接预测各种表示形式的 3D 形状或从数据库检索 CAD 模型并预测它们的对齐方式来完成。直接预测 3D 形状通常会产生不切实际、过度平滑或镶嵌的形状。检索 CAD 模型可确保形状真实，但需要稳健且准确的对齐。学习根据图像特征直接预测 CAD 模型姿势具有挑战性且不准确。 ROCA 等工作根据预测的标准化对象坐标计算姿势，这可能更准确，但容易受到系统故障的影响。 SPARC 证明，采用渲染和比较方法，网络迭代地改进其自身的预测，从而实现准确的对齐。尽管如此，它还是对图像中检测到的每个对象执行单独的 CAD 对齐。当应用于许多对象时，这种方法很慢，因为时间复杂度随着对象的数量线性增加，并且无法学习对象间的关系。引入新的网络架构 Multi SPARC，我们学习对多个检测到的对象联合执行 CAD 模型对齐。与其他单视图方法相比，我们在具有挑战性的现实世界数据集 ScanNet 上实现了最先进的性能。

FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus
Authors Xueyang Kang, Fengze Han, Abdur Fayjie, Dong Gong
焦点堆栈的深度估计是一个基本的计算机视觉问题，旨在从图像堆栈中的焦点散焦线索推断深度。大多数现有方法通过在一组固定堆栈图像上应用具有 2D 或 3D 卷积的卷积神经网络 CNN 来解决此问题，以学习跨图像和堆栈的特征。由于 CNN 的局部特性，它们的性能受到限制，并且它们只能处理训练和推理中一致的固定数量的堆栈，从而限制了对任意堆栈长度的泛化。为了解决上述限制，我们开发了一种新颖的基于 Transformer 的网络 FocDepthFormer，它主要由带有 LSTM 模块的 Transformer 和 CNN 解码器组成。 Transformer 中的自注意力机制可以通过隐式非局部交叉引用学习更多信息特征。 LSTM 模块被学习将堆栈中的表示与任意图像集成。为了直接捕获不同程度的焦点散焦的低级特征，我们建议在早期编码器中使用多尺度卷积核。受益于 LSTM 的设计，我们的 FocDepthFormer 可以使用丰富的单目 RGB 深度估计数据进行预训练，用于视觉模式捕获，从而减轻了难以收集焦点堆栈数据的需求。

Knowledge Extraction and Distillation from Large-Scale Image-Text Colonoscopy Records Leveraging Large Language and Vision Models
Authors Shuo Wang, Yan Zhu, Xiaoyuan Luo, Zhiwei Yang, Yizhe Zhang, Peiyao Fu, Manning Wang, Zhijian Song, Quanlin Li, Pinghong Zhou, Yike Guo
用于结肠镜检查分析的人工智能系统的开发通常需要专家注释的图像数据集。然而，数据集大小和多样性的限制阻碍了模型的性能和泛化。来自常规临床实践的图像文本结肠镜检查记录（包括数百万张图像和文本报告）可以作为宝贵的数据源，尽管对其进行注释是劳动密集型的。在这里，我们利用大型语言和视觉模型的最新进展，提出了 EndoKED，一种用于深度知识提取和蒸馏的数据挖掘范例。 EndoKED 自动将原始结肠镜检查记录转换为具有像素级注释的图像数据集。我们使用原始结肠镜检查记录的 100 万张图像的多中心数据集来验证 EndoKED，展示了其在训练息肉检测和分割模型方面的卓越性能。

Unsupervised Pre-Training Using Masked Autoencoders for ECG Analysis
Authors Guoxin Wang, Qingyuan Wang, Ganesh Neelakanta Iyer, Avishek Nag, Deepu John
无监督学习方法在深度学习中变得越来越重要，因为它们在计算机视觉和自然语言处理任务中表现出对数据集的大量利用以及更高的准确性。将无监督学习方法扩展到其他领域的趋势日益明显，这有助于利用大量未标记的数据。本文提出了一种基于掩蔽自动编码器 MAE 的心电图 ECG 信号无监督预训练技术。此外，我们提出了一个特定于任务的微调，以形成心电图分析的完整框架。该框架是高水平的、通用的，并且不单独适应特定的模型架构或任务。使用各种模型架构和大规模数据集进行实验，在 MITDB 数据集上用于 ECG 心律失常分类任务的准确度达到 94.39。

BayesDiff: Estimating Pixel-wise Uncertainty in Diffusion via Bayesian Inference
Authors Siqi Kou, Lei Gan, Dequan Wang, Chongxuan Li, Zhijie Deng
扩散模型具有令人印象深刻的图像生成能力，但低质量的生成仍然存在，并且由于缺乏适当的样本指标，它们的识别仍然具有挑战性。为了解决这个问题，我们提出了 BayesDiff，一种基于贝叶斯推理的扩散模型世代的像素级不确定性估计器。特别是，我们推导了一种新颖的不确定性迭代原理来表征扩散中的不确定性动力学，并利用最后一层拉普拉斯近似来进行有效的贝叶斯推理。估计的像素方面的不确定性不仅可以聚合到样本方面的度量中以过滤掉低保真度图像，而且还有助于在文本到图像任务中增强成功生成并纠正失败生成中的伪影。

USDC: Unified Static and Dynamic Compression for Visual Transformer
Authors Huan Yuan, Chao Liao, Jianchao Tan, Peng Yao, Jiyuan Jia, Bin Chen, Chengru Song, Di Zhang
Visual Transformers 在几乎所有视觉任务中都取得了巨大成功，例如分类、检测等。然而，视觉变压器的模型复杂性和推理速度阻碍了它们在工业产品中的部署。各种模型压缩技术侧重于在保持模型性能的同时将视觉变换器直接压缩为较小的变换器，然而，当压缩率较大时，性能会急剧下降。此外，还应用了多种动态网络技术来动态压缩视觉变换器，以在推理阶段获得输入自适应高效子结构，这可以在压缩率和模型性能之间实现更好的权衡。在实际部署中，动态模型的内存上限并没有减少，因为整个原始视觉变换器模型和附加的控制门控模块应该一起加载到设备上进行推理。为了缓解两类方法的两个缺点，我们提出将静态压缩和动态压缩技术联合起来以获得输入自适应压缩模型，这可以进一步更好地平衡总压缩率和模型性能。而且，在实际部署中，训练和推理阶段的batch size通常是不同的，这会导致模型推理性能比模型训练性能差，这是之前所有动态网络论文都没有触及的。我们提出了一种子组门增强技术来解决这个性能下降问题。

3D Structure-guided Network for Tooth Alignment in 2D Photograph
Authors Yulong Dou, Lanzhuju Mei, Dinggang Shen, Zhiming Cui
正畸的重点是矫正牙齿不齐，即咬合不正，影响咀嚼功能和美观。然而，正畸治疗通常涉及复杂、漫长的过程。因此，在正畸治疗之前生成描绘对齐牙齿的二维照片对于牙医患者的有效沟通至关重要，更重要的是，对于鼓励患者接受正畸干预至关重要。在本文中，我们提出了一种 3D 结构引导牙齿对齐网络，该网络以 2D 照片作为输入，例如智能手机拍摄的照片，并在 2D 图像空间内对齐牙齿，以生成具有美观、对齐牙齿的正畸比较照片。值得注意的是，虽然该过程在 2D 图像空间内运行，但我们的方法采用在诊所收集的 3D 口腔内扫描模型来了解正畸治疗，即将正畸前后的 3D 牙齿结构投影到 2D 牙齿轮廓上，然后使用扩散模型来学习映射关系。最终，对齐的牙齿轮廓用于指导生成具有美观、对齐的牙齿和逼真纹理的 2D 照片。

Generalizability of CNN Architectures for Face Morph Presentation Attack
Authors Sherko R. HmaSalah, Aras Asaad
自动边境管制系统在世界各地的现代机场中广泛应用。针对人脸生物识别技术的变形攻击是一种严重威胁，会破坏机场和边境管制中部署的人脸识别系统的安全性和可靠性。因此，开发强大的机器学习 ML 系统对于防止犯罪分子使用虚假身份跨越国界是必要的，特别是因为事实证明，安全官员无法比机器更好地检测变形。在本研究中，我们研究了卷积神经网络 CNN 架构针对变形攻击的泛化能力。该研究使用了 5 个不同的 CNN，即 ShuffleNet、DenseNet201、VGG16、EffecientNet B0 和 InceptionResNet v2。每个 CNN 架构在各种计算机视觉应用的参数数量、架构设计和性能方面都代表了一个众所周知的 CNN 模型系列。为了确保稳健的评估，我们采用了 4 个不同的数据集 Utrecht、London、Defacto 和 KurdFace，其中包含各种数字人脸图像，涵盖种族、性别、年龄、照明条件和相机设置的变化。 ML 系统设计的基本概念之一是能够有效地泛化到以前未见过的数据，因此我们不仅评估单个数据集中 CNN 模型的性能，而且还探索它们在组合数据集中的性能，并仅在测试阶段研究每个数据集。

DORec: Decomposed Object Reconstruction Utilizing 2D Self-Supervised Features
Authors Jun Wu, Sicheng Li, Sihui Ji, Yue Wang, Rong Xiong, Yiyi Liao
在重建时从复杂背景中分解目标对象具有挑战性。大多数方法通过使用手动标签来获取对象实例的感知，但注释过程成本高昂。二维自监督学习的最新进展为对象感知表示带来了新的前景，但仍不清楚如何利用这种嘈杂的二维特征进行干净的分解。在本文中，我们提出了一种基于神经隐式表示的分解对象重建 DORec 网络。我们的关键思想是将 2D 自监督特征转移到两个粒度级别的掩码中以监督分解，包括用于指示前景区域的二元掩码和用于指示语义相似区域的 K 簇掩码。这两个掩码相互补充并导致稳健的分解。

Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters
Authors Gyuseong Lee, Wooseok Jang, Jin Hyeon Kim, Jaewoo Jung, Seungryong Kim
尽管存在较大的分布变化，但学习强大的视觉模型对于现实世界环境中的模型部署至关重要。特别是，领域泛化 DG 算法旨在保持训练模型在训练期间未见过的不同分布上的性能。最有效的方法之一是利用已经学到的大型预训练模型的丰富知识。然而，由于内存限制、训练需要大量时间以及所学知识退化的风险，天真地将大型模型微调到 DG 任务实际上通常是不可行的。最近，人们提出了参数高效微调 PEFT 方法，以减少训练期间的高计算成本，并有效地使大型模型适应下游任务。在这项工作中，我们首次发现在 PEFT 方法中使用适配器不仅可以降低训练期间的高计算成本，而且可以作为 DG 任务的有效正则化器。令人惊讶的是，大型模型的简单适配器实现在常见数据集上实现了卓越的性能。然而，在分布变化较大的情况下，复杂的适配器实现应考虑其他因素，例如由于分布变化的强度而导致的最佳正则化量。为了解决这个问题，我们提出了一种基于专家的混合适配器微调方法，称为混合适配器 MoA。具体来说，我们使用具有不同容量的多个适配器，并通过使用可学习的路由器，我们将每个令牌分配给适当的适配器。

NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning
Authors Haowei Wang, Jiayi Ji, Tianyu Guo, Yilong Yang, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji
全景叙事检测 PND 和分割 PNS 是两项具有挑战性的任务，涉及根据长叙事描述识别和定位图像中的多个目标。在本文中，我们提出了一个名为 NICE 的统一有效的框架，可以共同学习这两个全景叙事识别任务。现有的视觉基础任务使用两个分支范例，但将其直接应用于 PND 和 PNS 可能会导致预测冲突，因为它们固有的多对多对齐属性。为了解决这个问题，我们引入了两个基于掩模重心的级联模块，它们是坐标引导聚合CGA和重心驱动定位BDL，分别负责分割和检测。通过将 PNS 和 PND 以分割重心作为锚点串联起来，我们的方法自然地将这两个任务对齐，并允许它们相互补充以提高性能。具体来说，CGA提供了重心作为检测的参考，减少了BDL对大量候选框的依赖。 BDL利用其优异的特性来区分不同的实例，从而提高了CGA的分割性能。大量实验表明，NICE 大幅超越了所有现有方法，PND 达到了 4.1，PNS 达到了 2.9，超过了现有技术水平。这些结果验证了我们提出的协作学习策略的有效性。

MRI brain tumor segmentation using informative feature vectors and kernel dictionary learning
Authors Seyedeh Mahya Mousavi, Mohammad Mostafavi
本文提出了一种基于核字典学习算法的磁共振图像MRI脑肿瘤区域分割方法。从大脑 MRI 扫描中像素周围大小为 3 3 的斑块中提取一组一阶和二阶统计特征向量。这些特征向量用于分别针对健康组织和肿瘤组织训练两个内核字典。为了提高词典的效率并减少训练时间，开发了一种基于相关性的样本选择技术来识别特征向量中最具信息性和辨别力的子集。该技术旨在通过选择为分割任务提供有价值信息的特征向量子集来提高字典的性能。随后，利用线性分类器根据学习的字典来区分健康和不健康的像素。

Towards Training-free Open-world Segmentation via Image Prompting Foundation Models
Authors Lv Tang, Peng Tao Jiang, Hao Ke Xiao, Bo Li
随着基础模型的出现，计算机视觉领域发生了范式转变，反映了大型语言模型在自然语言处理领域的变革性影响。本文深入探讨了开放世界分割的探索，提出了一种称为图像提示分割 IPSeg 的新颖方法，该方法利用了视觉基础模型的力量。 IPSeg 的核心是无训练范式的原则，它利用了图像提示技术。 IPSeg 利用包含主观视觉概念的单个图像作为灵活的提示来查询 DINOv2 和稳定扩散等视觉基础模型。我们的方法提取提示图像和输入图像的鲁棒特征，然后通过新颖的特征交互模块将输入表示与提示表示相匹配，以生成突出显示输入图像中的目标对象的点提示。生成的点提示进一步用于指导分割任意模型对输入图像中的目标对象进行分割。所提出的方法的突出之处在于消除了详尽的培训课程的需要，从而提供了更高效和可扩展的解决方案。 COCO、PASCAL VOC 和其他数据集上的实验证明了 IPSeg 使用直观的图像提示进行灵活的开放世界分割的功效。

Filling the Holes on 3D Heritage Object Surface based on Automatic Segmentation Algorithm
Authors Sinh Van Nguyen, Son Thanh Le, Minh Khai Tran, Le Thanh Sach
重建和处理 3D 对象是计算机图形学、图像处理和计算机视觉研究领域的热门活动。 3D对象的处理基于几何建模（应用数学和计算几何的一个分支）或基于图像处理的机器学习算法等方法。几何对象的计算包括在点云数据和三角网格上处理曲线和曲面、细分、简化、网格划分、孔洞填充、重建和细化3D曲面对象。而机器学习方法是使用深度学习模型开发的。在3D激光扫描设备和激光雷达技术的支持下，获得的数据集接近真实物体的原始形状。此外，近年来基于现代技术的摄影及其应用帮助我们更精确地收集数据和处理3D模型。本文提出了一种基于自动分割的 3D 物体表面孔洞填充改进方法。我们现在不再像现有方法那样直接填补漏洞，而是在填补漏洞之前先细分漏洞。首先根据其局部曲率的计算自动确定并分割孔。然后填充孔的每个部分以匹配其局部曲率形状。该方法既适用于3D点云表面，也适用于三角网格表面。

SoybeanNet: Transformer-Based Convolutional Neural Network for Soybean Pod Counting from Unmanned Aerial Vehicle (UAV) Images
Authors Jiajia Li, Raju Thada Magar, Dong Chen, Feng Lin, Dechun Wang, Xiang Yin, Weichao Zhuang, Zhaojian Li
大豆是食物、蛋白质和油的重要来源，因此受到了广泛的研究，旨在提高其产量、改进种植方法和推进大豆育种技术。在此背景下，大豆荚计数在理解和优化生产方面发挥着重要作用。尽管最近取得了进展，但开发能够在实际田间条件下有效执行的稳健豆荚计数算法仍然是一项重大挑战。本文介绍了利用从美国密歇根州实际大豆田捕获的无人机图像进行精确大豆豆荚计数的开创性工作。具体来说，本文提出了 SoybeanNet，这是一种新型的基于点的计数网络，它利用强大的变压器主干来同时进行大豆荚计数和高精度定位。此外，还创建并开源了一个用于大豆荚计数的无人机采集图像的新数据集，其中包含 113 张无人机图像，以及在自然光照条件下捕获的超过 26 万个手动注释的大豆荚。通过综合评估，在对收集的图像进行测试时，SoybeanNet 表现出了优于五种最先进方法的性能。值得注意的是，在测试数据集上进行测试时，SoybeanNet 的计数准确度达到了 84.51，证明了其在现实场景中的有效性。

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
Authors Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
随着基于扩散的文本到图像生成的令人印象深刻的进展，将如此强大的生成能力扩展到文本到视频引起了巨大的关注。现有方法要么需要大规模文本视频对和大量训练资源，要么学习与模板视频精确对齐的动作。平衡视频生成的生成自由度和资源成本之间的权衡并非易事。在我们的研究中，我们提出了一些基于镜头的调整框架 LAMP，它使文本到图像扩散模型能够在单个 GPU 上学习具有 8 16 个视频的特定运动模式。具体来说，我们设计了一个第一帧条件管道，它使用现成的文本到图像模型来生成内容，以便我们调整的视频扩散模型主要专注于运动学习。成熟的文本到图像技术可以提供视觉上令人愉悦且多样化的内容作为生成条件，这极大地提高了视频质量和生成自由度。为了捕获时间维度的特征，我们将 T2I 模型的预训练 2D 卷积层扩展到我们新颖的时间空间运动学习层，并将注意力块修改为时间级别。此外，我们开发了一种有效的推理技巧，即共享噪声采样，它可以通过计算成本提高视频的稳定性。我们的方法还可以灵活地应用于其他任务，例如现实世界图像动画和视频编辑。大量的实验表明，LAMP 可以在有限的数据上有效地学习运动模式并生成高质量的视频。

BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys
Authors Yu Gu, Jianwei Yang, Naoto Usuyama, Chunyuan Li, Sheng Zhang, Matthew P. Lungren, Jianfeng Gao, Hoifung Poon
使用自然语言指令进行图像编辑的指令学习已经取得了快速进展，InstructPix2Pix就是一个例子。在生物医学中，此类方法可应用于反事实图像生成，这有助于区分因果结构与虚假相关性，并促进疾病进展建模的稳健图像解释。然而，通用图像编辑模型不适合生物医学领域，并且反事实生物医学图像生成在很大程度上尚未得到充分探索。在本文中，我们提出了 BiomedJourney，这是一种通过从多模式患者旅程中学习指令来生成反事实生物医学图像的新方法。给定一名患者在不同时间点拍摄的两张生物医学图像，我们使用 GPT 4 处理相应的成像报告并生成疾病进展的自然语言描述。然后使用所得的三元组先前图像、进展描述、新图像来训练用于反事实生物医学图像生成的潜在扩散模型。考虑到图像时间序列数据的相对稀缺性，我们引入了一个两阶段课程，首先使用更丰富的单图像报告对和虚拟先验图像对去噪网络进行预训练，然后使用反事实三元组继续训练。使用标准 MIMIC CXR 数据集的实验证明了我们方法的前景。在对反事实医学图像生成的一系列全面测试中，BiomedJourney 在指令图像编辑和医学图像生成方面远远优于现有的最先进方法，例如 InstructPix2Pix 和 RoentGen。

Automated Natural Language Explanation of Deep Visual Neurons with Large Models
Authors Chenxu Zhao, Wei Qian, Yucheng Shi, Mengdi Huai, Ninghao Liu
深度神经网络在广泛的现实世界任务中表现出了卓越的性能。然而，理解其有效性的根本原因仍然是一个具有挑战性的问题。在探索神经网络的内部运作时，通过检查神经元来解释深度神经网络具有明显的优势。先前的研究表明，深度视觉网络中的特定神经元具有语义意义，并在模型性能中发挥关键作用。尽管如此，当前生成神经元语义的方法严重依赖人类干预，这限制了它们的可扩展性和适用性。为了解决这一限制，本文提出了一种新颖的事后框架，用于生成具有大型基础模型的神经元的语义解释，而不需要人工干预或先验知识。我们的框架旨在与各种模型架构和数据集兼容，促进自动化和可扩展的神经元解释。

PELA: Learning Parameter-Efficient Models with Low-Rank Approximation
Authors Yangyang Guo, Guangzhi Wang, Mohan Kankanhalli
在资源有限的条件下，将预先训练的大型模型应用于下游任务是令人望而却步的。最近解决效率问题的主要方法包括向固定骨干模型添加一些可学习的参数。然而，这种策略导致在资源有限的情况下加载大型模型以进行下游微调时面临更多挑战。在本文中，我们提出了一种通过引入中间预训练阶段来提高预训练模型参数效率的新方法。为此，我们首先采用低秩近似来压缩原始大模型，然后设计特征蒸馏模块和权重扰动正则化模块。这些模块是专门为增强低等级模型而设计的。具体来说，我们仅更新低秩模型，同时在预训练期间冻结骨干参数。这允许直接有效地利用低秩模型来执行下游任务。所提出的方法在所需参数和计算时间方面实现了效率，同时通过对基本架构的最小修改保持了可比较的结果。

Towards Generic Semi-Supervised Framework for Volumetric Medical Image Segmentation
Authors Haonan Wang, Xiaomeng Li
3D 医学图像中的体积标注是一项耗时的任务，需要专业知识。因此，人们越来越有兴趣使用半监督学习 SSL 技术来训练具有有限标记数据的模型。然而，挑战和实际应用超出了 SSL 的范围，扩展到无监督域适应 UDA 和半监督域泛化 SemiDG 等设置。这项工作旨在开发一个可以处理所有三种设置的通用 SSL 框架。我们确定了现有 SSL 框架中实现这一目标的两个主要障碍：1 捕获分布不变特征的弱点；2 未标记数据被标记数据淹没的趋势，导致训练期间过度拟合标记数据。为了解决这些问题，我们提出了一个聚合解耦框架。聚合部分由扩散编码器组成，该编码器通过从多个分布域的聚合信息中提取分布不变特征来构造公共知识集。解耦部分由三个解码器组成，将训练过程与标记和未标记数据解耦，从而避免对标记数据、特定域和类的过度拟合。我们在 SSL、类不平衡 SSL、UDA 和 SemiDG 的四个基准数据集上评估了我们提出的框架。与所有四种设置中最先进的方法相比，结果显示了显着的改进，表明我们的框架具有解决更具挑战性的 SSL 场景的潜力。

Video Super-Resolution Using a Grouped Residual in Residual Network
Authors MohammadHossein Ashoori, Arash Amini
超分辨率SR是一种提高图像视频内容标称分辨率并提高质量的技术。视频超分辨率VSR可以被认为是单图像超分辨率SISR的推广。这种概括应该是使用相邻输入帧在输出中创建更多细节。在本文中，我们提出了残差网络 GRRN 中用于 VSR 的分组残差。通过调整所提出结构的超参数，我们训练了具有不同参数数量的三个网络，并将它们的定量和定性结果与现有方法进行了比较。

Image Compression using only Attention based Neural Networks
Authors Natacha Luka, Romain Negrel, David Picard
在最近的研究中，学习图像压缩因其优于传统手工制作管道的能力而受到关注，尤其是在低比特率下。虽然现有方法将卷积先验与偶尔的注意块结合起来以解决长距离依赖性，但计算机视觉的最新进展主张向基于注意机制的完全基于变压器的架构进行变革性转变。本文研究了在我们的新模型 QPressFormer 中专门使用注意力层进行图像压缩的可行性。我们引入了学习图像查询的概念，通过交叉注意来聚合补丁信息，然后是量化和编码技术。

Gromov-Wassertein-like Distances in the Gaussian Mixture Models Space
Authors Antoine Salmona, Julie Delon, Agn s Desolneux
在本文中，我们在高斯混合模型集上引入了两种 Gromov Wasserstein 型距离。第一个采用高斯测度空间上两个离散分布之间的 Gromov Wasserstein 距离的形式。对于仅需要评估分布彼此之间的距离但不允许直接导出点云之间的最佳运输计划的应用程序，此距离可以用作 Gromov Wasserstein 的替代方案。为了设计一种方法来定义这样的交通规划，我们引入了生活在无与伦比的空间中的措施之间的另一种距离，事实证明该距离与格罗莫夫·瓦瑟斯坦（Gromov Wasserstein）密切相关。在后者中，当将允许的传输耦合集限制为高斯混合模型本身时，这定义了高斯混合模型之间的另一个距离，该距离可以用作 Gromov Wasserstein 的另一种替代方案，并且允许导出点之间的最佳分配。

Super resolution of histopathological frozen sections via deep learning preserving tissue structure
Authors Elad Yoshai, Gil Goldinger, Miki Haifler, Natan T. Shaked
组织病理学在医学诊断中发挥着关键作用。与为组织病理学准备永久切片这一耗时的过程相比，准备冷冻切片的速度明显更快，并且可以在手术期间进行，此时应优化样本扫描时间。超分辨率技术允许以较低的放大倍数对样品进行成像并节省扫描时间。在本文中，我们提出了一种用于组织病理学冰冻切片超分辨率的新方法，重点是实现更好的失真测量，而不是追求可能损害关键诊断信息的逼真图像。我们的深度学习架构专注于学习插值图像和真实图像之间的误差，从而生成高分辨率图像，同时保留关键图像细节，从而降低诊断误解的风险。这是通过利用频域中的损失函数，为复杂的高频分量的重建分配更高的权重来完成的。与现有方法相比，我们在结构相似性指数 SSIM 和峰值信噪比 PSNR 方面获得了显着改进，并显示了低分辨率冰冻切片图像中丢失的细节，影响了病理学家的临床决策。

SODA: Robust Training of Test-Time Data Adaptors
Authors Zige Wang, Yonggang Zhang, Zhen Fang, Long Lan, Wenjing Yang, Bo Han
调整部署来测试分布的模型可以减轻分布变化引起的性能下降。然而，隐私问题可能导致模型参数无法访问。一种有前途的方法涉及利用零阶优化 ZOO 来训练数据适配器以调整测试数据以适应已部署的模型。然而，由于数据适配器可能导致数据特征损坏，因此使用 ZOO 训练的数据适配器通常带来的改进有限。为了解决这个问题，我们在测试时间数据适应的背景下重新审视 ZOO。我们发现该问题直接源于用于优化数据适配器的梯度估计不可靠，这本质上是由于分配给测试数据的伪标签的不可靠性质造成的。基于这一观察，我们提出了伪标签鲁棒数据适应SODA来提高数据适应的性能。具体来说，SODA 利用高置信度预测标签作为可靠标签，通过 ZOO 优化数据适配器进行标签预测。对于低置信度预测的数据，SODA 鼓励适配器保留数据信息以减轻数据损坏。

United We Stand: Using Epoch-wise Agreement of Ensembles to Combat Overfit
Authors Uri Stern, Daniel Shwartz, Daphna Weinshall
深度神经网络已成为解决许多图像分类任务的首选方法，主要是因为它们可以适应在原始图像上定义的非常复杂的函数。如此强大的学习器的缺点是过度拟合训练集的危险，导致泛化能力差，这通常可以通过正则化和提前停止训练来避免。在本文中，我们提出了一种新的深度网络集成分类器，它对于防止过度拟合非常有效。我们从回归模型的理论分析开始，该模型预测当发生过度拟合时分类器之间的方差会增加，这在常用的深度网络中得到了经验证明。在这些结果的指导下，我们构建了一种新的基于集成的预测方法，旨在对抗过度拟合，其中预测是由整个训练过程中最一致的预测决定的。在多个图像和文本分类数据集上，我们表明，当常规集成遭受过度拟合时，我们的方法消除了由于过度拟合而导致的泛化能力的有害降低，甚至常常超过了早期停止所获得的性能。我们的方法易于实现，并且可以与任何训练方案和架构集成，无需训练集之外的额外先验知识。

$k$-$t$ CLAIR: Self-Consistency Guided Multi-Prior Learning for Dynamic Parallel MR Image Reconstruction
Authors Liping Zhang, Weitian Chen
心脏磁共振成像CMR已广泛应用于临床实践中用于心脏疾病的医学诊断。然而，较长的采集时间阻碍了其在实时应用中的发展。在这里，我们提出了一种名为 k t CLAIR 的新颖的自我一致性引导的多先验学习框架，以利用高度欠采样数据的时空相关性来加速动态并行 MRI 重建。由于动态 MRI 表现出高度的时空冗余，k t CLAIR 通过利用在 x t 、x f 和 k t 域中以迭代方式学习的多个互补先验，逐步重建忠实的图像。此外，k t CLAIR 结合了先前学习的校准信息，从而实现更一致的重建。

Co-Learning Semantic-aware Unsupervised Segmentation for Pathological Image Registration
Authors Yang Liu, Shi Gu
病理图像的配准在医学应用中发挥着重要作用。尽管其意义重大，但该领域的大多数研究人员主要关注正常组织与正常组织的配准。很少考虑焦点组织的负面影响，例如空间对应信息的丢失和组织的异常扭曲。在本文中，我们提出了 GIRNet，这是一种新颖的无监督病理图像配准方法，通过生成、修复和配准 GIR 的原理将分割和修复结合起来。配准、分割和修复模块以协同学习的方式同时训练，使得焦点区域的分割和修复对的配准可以协同改进。总体而言，病理图像的配准是在完全无监督的学习框架中实现的。多个数据集（包括 T1 序列的磁共振成像 MRI）的实验结果证明了我们提出的方法的有效性。我们的结果表明，即使在具有挑战性的成像模式下，我们的方法也可以准确地实现病理图像的配准并识别病变。我们的无监督方法为病理图像的高效且具有成本效益的配准提供了一种有前景的解决方案。

Context-Aware Meta-Learning
Authors Christopher Fifty, Dennis Duan, Ronald G. Junkins, Ehsan Amid, Jure Leskovec, Christopher R , Sebastian Thrun
像 ChatGPT 这样的大型语言模型展示了在推理过程中无需任何微调即可学习新概念的卓越能力。然而，经过训练以在推理过程中检测新对象的视觉模型无法复制这种能力，而是要么表现不佳，要么需要对类似对象进行元训练和/或微调。在这项工作中，我们提出了一种元学习算法，通过在推理过程中学习新的视觉概念而无需微调来模拟大型语言模型。我们的方法利用冻结的预训练特征提取器，类似于上下文学习，将元学习重新定义为对具有已知标签的数据点和具有未知标签的测试数据点进行序列建模。

Enhancing Deep Neural Network Training Efficiency and Performance through Linear Prediction
Authors Hejie Ying, Mengmeng Song, Yaohong Tang, Shungen Xiao, Zimin Xiao
深度神经网络DNN在计算机视觉和自然语言处理等各个领域都取得了显着的成功。然而，训练有效的 DNN 模型仍然面临挑战。本文旨在提出一种优化DNN训练效果的方法，以提高模型性能。首先，基于对DNN参数在训练过程中按一定规律变化的观察，发现了参数预测在提高模型训练效率和性能方面的潜力。其次，考虑到DNN模型参数的大小、硬件限制以及随机梯度下降SGD的抗噪特性，利用参数线性预测PLP方法进行DNN参数预测。最后，在一些代表性骨干上进行验证。实验结果表明，与常规训练方式相比，在相同的训练条件和训练周期下，采用所提出的PLP方法，优化模型能够使Vgg16、Resnet18和Resnet18的平均精度提高约1，top 1 top 5误差降低0.01

Medical Image Segmentation via Sparse Coding Decoder
Authors Long Zeng, Kaigui Wu
由于能够捕获长距离依赖性，Transformers 在医学图像分割方面取得了巨大的成功。之前的工作将卷积层合并到 Transformer 的编码器模块中，从而增强了它们学习像素之间局部关系的能力。然而，由于解码器的空间恢复能力不足，变压器可能会受到泛化能力有限和鲁棒性降低的影响。为了解决这个问题，提出了一种基于卷积稀疏向量编码的解码器，即CAScaded多层卷积稀疏向量编码解码器CASCSCDE，它表示编码器使用稀疏向量提取的特征。为了证明我们的CASCSCDE的有效性，选择广泛使用的TransUNet模型进行演示，并将CASCSCDE与TransUNet结合起来建立TransCASCSCDE架构。我们的实验表明，带有 CASCSCDE 的 TransUNet 显着增强了 Synapse 基准测试的性能，DICE 和 mIoU 分数分别提高了 3.15 和 1.16。

FusionU-Net: U-Net with Enhanced Skip Connection for Pathology Image Segmentation
Authors Zongyi Li, Hongbing Lyu, Jun Wang
近年来，U Net及其变体已广泛应用于病理图像分割任务。 U Net 的关键设计之一是在编码器和解码器之间使用跳跃连接，这有助于在上采样后恢复详细信息。虽然 U Net 的大多数变体都采用原始的跳跃连接设计，但编码器和解码器之间存在语义差距，这可能会对模型性能产生负面影响。因此，在进行跳跃连接之前减少这种语义差距很重要。为了解决这个问题，我们提出了一种名为 FusionU Net 的新分割网络，它基于 U Net 结构，并结合了一个融合模块来在不同的跳跃连接之间交换信息，以减少语义差距。与现有网络中的其他融合模块不同，我们的融合模块基于两轮融合设计，充分考虑了相邻编码器层输出之间的局部相关性以及跨多层双向信息交换的需要。我们对多个病理图像数据集进行了广泛的实验来评估我们的模型，发现 FusionU Net 与其他竞争方法相比具有更好的性能。

Approximation properties of slice-matching operators
Authors Shiying Li, Caroline Moosmueller
迭代切片匹配过程是将源测量转移到目标测量的有效方案，尤其是在高维中。这些方案已成功用于颜色转移和形状检索等应用，并保证在规律性假设下收敛。在本文中，我们根据源测量、目标测量和切片方向检查关联的切片匹配运算符，探索与此类迭代方案的单步相关的近似属性。特别是，我们证明了关于源测量的不变性、关于目标测量的等方差性以及关于切片方向的 Lipschitz 连续性。我们还建立了与通过切片匹配方案的一步来近似目标测量相对应的误差界限，并表征了切片匹配算子恢复两个测量之间的最佳传输图的情况。我们还研究了与切片 Wasserstein 距离相关的仿射配准问题的联系。

The Invisible Map: Visual-Inertial SLAM with Fiducial Markers for Smartphone-based Indoor Navigation
Authors Paul Ruvolo, Ayush Chakraborty, Rucha Dave, Richard Li, Duncan Mazza, Xierui Shen, Raiyan Siddique, Krishna Suresh
我们提出了一个使用主流智能手机创建建筑比例、易于导航的 3D 地图的系统。在我们的方法中，我们将 3D 建图问题表述为 Graph SLAM 的一个实例，并推断建筑物地标基准标记的位置以及通过环境手机姿势的可导航路径。我们的结果证明了系统创建准确 3D 地图的能力。

Provable Probabilistic Imaging using Score-Based Generative Priors
Authors Yu Sun, Zihui Wu, Yifan Chen, Berthy T. Feng, Katherine L. Bouman
估计高质量图像同时量化其不确定性是用于解决不适定逆问题的图像重建算法中的两个所需特征。在本文中，我们提出即插即用的蒙特卡罗 PMC 作为一个原则框架，用于描述一般反问题的可能解决方案的空间。 PMC 能够结合基于表达分数的生成先验来实现高质量图像重建，同时还通过后验采样执行不确定性量化。特别是，我们介绍了两种 PMC 算法，它们可以被视为传统即插即用先验 PnP 和通过去噪 RED 正则化算法的采样类似物。我们还建立了表征 PMC 算法收敛性的理论分析。我们的分析为两种算法提供了非渐近平稳性保证，即使存在非对数凹似然和不完美的评分网络。我们通过线性和非线性正向模型展示了 PMC 算法在多个代表性反问题上的性能。

Vision and Language Navigation in the Real World via Online Visual Language Mapping
Authors Chengguang Xu, Hieu T. Nguyen, Christopher Amato, Lawson L.S. Wong
在看不见的环境中导航对于移动机器人来说至关重要。增强它们遵循自然语言指令的能力将进一步提高在未见过的情况下的导航效率。然而，最先进的 SOTA 视觉和语言导航 VLN 方法主要在模拟中进行评估，忽略了复杂且嘈杂的现实世界。由于视觉域差距和缺乏关于不可见环境的先验知识，将模拟训练的 SOTA 导航策略直接转移到现实世界具有挑战性。在这项工作中，我们提出了一种新颖的导航框架来解决现实世界中的 VLN 任务。利用强大的基础模型，所提出的框架包括四个关键组件：1 基于 LLM 的指令解析器，将语言指令转换为一系列预定义的宏动作描述；2 在线视觉语言映射器，构建实时视觉语言映射以维护对不可见环境的空间和语义理解，3 基于语言索引的定位器，将每个宏观动作描述基于地图上的路径点位置，以及 4 基于 DD PPO 的本地控制器，用于预测动作。我们在看不见的实验室环境中在 Interbotix LoCoBot WX250 上评估了拟议的流程。

Convolutional Neural Network Model for Diabetic Retinopathy Feature Extraction and Classification
Authors Sharan Subramanian, Leilani H. Gilpin
人工智能在医疗市场的应用引起了越来越多的关注，但有助于更及时地诊断糖尿病视网膜病变等无症状进展性疾病。为了诊断糖尿病视网膜病变 DR，眼科医生使用彩色眼底图像或视网膜背面的图片，通过一个困难且耗时的过程来识别小的明显特征。我们的工作创建了一种新颖的 CNN 模型，并通过眼底图像输入来识别 DR 的严重程度。我们通过卷积层对 4 种已知的 DR 特征进行分类，包括微动脉瘤、棉絮、渗出物和出血，并且能够提供准确的诊断，而无需额外的用户输入。所提出的模型更具可解释性并且对过度拟合具有鲁棒性。我们给出的初步结果灵敏度为 97，准确度为 71。我们的贡献是一个可解释的模型，其精度与更复杂的模型相似。

Deep Conditional Shape Models for 3D cardiac image segmentation
Authors Athira J Jacob, Puneet Sharma, Daniel Ruckert
解剖结构的描绘通常是许多医学图像分析工作流程的第一步。虽然卷积神经网络实现了高性能，但它们不包含解剖形状信息。我们引入了一种新颖的分割算法，该算法使用深度条件形状模型 DCSM 作为核心组件。使用深度隐式形状表示，该算法学习模态不可知的形状模型，该模型可以为任何感兴趣的解剖结构生成带符号的距离函数。为了使生成的形状适合图像，形状模型以用户可以自动检测或提供的解剖标志为条件。最后，我们添加一个依赖于模态的轻量级细化网络来捕获隐式函数未表示的任何精细细节。所提出的 DCSM 框架针对来自多种 3D 模态对比增强 CT、非对比 CT、3D 超声心动图 3DE 的心脏左心室 LV 分割问题进行了评估。我们证明，自动 DCSM 优于未经局部细化的非造影 CT 基线，以及经过造影 CT 和 3DE 细化的基线，尤其是 Hausdorff 距离的显着改进。具有用户输入地标的半自动 DCSM，虽然仅在对比 CT 上进行训练，但所有模式的 Dice 数均超过 92 个。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com