【AI视野·今日CV 计算机视觉论文速览第277期】Fri, 27 Oct 2023_sonosam segment anything on ultrasound images-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/134450859

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 27 Oct 2023
Totally 93 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised Video Anomaly Detection
Authors Anas Al lahham, Nurbek Tastan, Zaigham Zaheer, Karthik Nandakumar
视频中异常事件的检测是监控等应用中的一个重要问题。视频异常检测 VAD 在一类分类 OCC 和弱监督 WS 设置中得到了深入研究。然而，完全无监督的美国视频异常检测方法尚未得到深入探索，该方法在没有任何注释或人工监督的情况下学习完整的系统。这是因为缺乏任何真实注释会显着增加 VAD 挑战的严重性。为了应对这一挑战，我们提出了一种简单但有效的两阶段伪标签生成框架，该框架可生成段级正常异常伪标签，该框架可进一步用于以监督方式训练段级异常检测器。所提出的从粗到细的伪标签 C2FPL 生成器采用精心设计的分层分裂聚类和统计假设检验来从一组完全未标记的视频中识别异常视频片段。经过训练的异常检测器可以直接应用于未见过的测试视频的片段，以获得片段级别，以及随后的帧级别异常预测。

DeepShaRM: Multi-View Shape and Reflectance Map Recovery Under Unknown Lighting
Authors Kohei Yamashita, Shohei Nobuhara, Ko Nishino
在未知的自然光照下（即在野外）对无纹理、非朗伯物体进行几何重建仍然具有挑战性，因为无法建立对应关系并且不能以简单的分析形式表达反射率。我们推导出一种新颖的多视图方法 DeepShaRM，它在这项具有挑战性的任务上实现了最先进的准确性。与过去将其表述为逆渲染（即从图像估计反射率、照明和几何形状）的方法不同，我们的关键思想是认识到反射率和照明不需要解开，而是估计为复合反射率图。我们引入了一种新颖的深度反射率图估计网络，该网络可以从当前几何估计和输入多视图图像的表面法线恢复相机视图反射率图。该网络还明确估计每个像素的置信度分数以处理全局光传输效应。然后，来自着色网络的深层形状使用恢复的反射率图来更新用带符号距离函数表示的几何估计。通过在这两者之间交替，最重要的是，通过绕过反射率和照明分解的不适定问题，该方法可以在这些具有挑战性的设置中准确地恢复对象几何形状。

A Survey on Transferability of Adversarial Examples across Deep Neural Networks
Authors Jindong Gu, Xiaojun Jia, Pau de Jorge, Wenqain Yu, Xinwei Liu, Avery Ma, Yuan Xun, Anjun Hu, Ashkan Khakzar, Zhijiang Li, Xiaochun Cao, Philip Torr
深度神经网络 DNN 的出现彻底改变了各个领域，能够解决图像识别、自然语言处理和科学问题解决等复杂任务。然而，这一进展也暴露了一个令人担忧的漏洞对抗示例。这些精心设计的输入，人类无法察觉，可以操纵机器学习模型做出错误的预测，引发对安全关键应用的担忧。这种现象的一个有趣的特性是对抗性示例的可转移性，其中为一个模型精心设计的扰动可以欺骗另一个模型，通常具有不同的架构。这种有趣的特性使得黑盒攻击成为可能，无需了解目标模型的详细信息。这项调查探讨了对抗性例子的对抗性可转移性的前景。我们对现有方法进行分类，以增强对抗性可转移性，并讨论指导每种方法的基本原则。虽然主要研究主要集中在图像分类上，但我们也将讨论扩展到其他视觉任务及其他任务。

SPA: A Graph Spectral Alignment Perspective for Domain Adaptation
Authors Zhiqing Xiao, Haobo Wang, Ying Jin, Lei Feng, Gang Chen, Fei Huang, Junbo Zhao
无监督域适应 UDA 是机器学习中的一种关键形式，可将域内模型扩展到数据分布不同的独特目标域。大多数先前的工作侧重于捕获域间可转移性，但在很大程度上忽略了丰富的域内结构，这在经验上导致更差的可区分性。在这项工作中，我们引入了一种新颖的图 SPectral Alignment SPA 框架来解决这个问题。我们的方法的核心简要概括如下： i 通过将 DA 问题转换为图原语，SPA 构成了一个粗略的图对齐机制，并使用新颖的谱正则器来对齐特征空间中的域图 ii 我们进一步开发了一个细粒度的消息传播模块一种新颖的邻居感知自我训练机制，以增强目标域的辨别力。在标准化基准上，SPA的大量实验表明其性能已经超越了现有的尖端DA方法。结合密集模型分析，我们得出的结论是，我们的方法确实具有卓越的功效、鲁棒性、可辨别性和可转移性。

Noise-Free Score Distillation
Authors Oren Katzir, Or Patashnik, Daniel Cohen Or, Dani Lischinski
分数蒸馏采样 SDS 已成为非图像领域中文本到内容生成的事实上的方法。在本文中，我们重新审视了 SDS 过程，并引入了一种简单的解释，该解释揭开了大型无分类器引导 CFG 尺度的必要性，其根源在于对不需要的噪声项的蒸馏。基于我们的解释，我们提出了一种新颖的无噪声分数蒸馏 NFSD 流程，该流程需要对原始 SDS 框架进行最少的修改。通过这种简化的设计，我们在使用标称 CFG 尺度的同时，更有效地将预训练的文本蒸馏为图像扩散模型。这种战略选择使我们能够防止结果过度平滑，确保生成的数据既真实又符合所需的提示。

Global Structure-Aware Diffusion Process for Low-Light Image Enhancement
Authors Jinhui Hou, Zhiyu Zhu, Junhui Hou, Hui Liu, Huanqiang Zeng, Hui Yuan
本文研究了一种基于扩散的框架来解决低光图像增强问题。为了利用扩散模型的功能，我们深入研究了这个复杂的过程，并提倡对其固有的 ODE 轨迹进行正则化。具体来说，受最近低曲率 ODE 轨迹导致稳定有效的扩散过程的研究的启发，我们制定了锚定于图像数据的内在非局部结构的曲率正则化项，即全局结构感知正则化，逐渐促进在扩散过程中保留复杂的细节并增强对比度。这种结合减轻了扩散过程产生的噪声和伪影的不利影响，从而实现更精确和灵活的增强。为了进一步促进具有挑战性的区域的学习，我们引入了一种不确定性引导的正则化技术，该技术明智地放松了对图像最极端区域的限制。实验评估表明，所提出的基于扩散的框架，辅以排名通知正则化，在低光增强中获得了出色的性能。结果表明，与最先进的方法相比，在图像质量、噪声抑制和对比度放大方面取得了显着进步。我们相信这种创新方法将刺激低光图像处理的进一步探索和进步，并对扩散模型的其他应用具有潜在影响。

SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching
Authors Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu
在本文中，我们解决了跨图像对匹配语义相似的关键点的挑战。现有研究表明，稳定扩散 SD 内 UNet 的中间输出可以作为此类匹配任务的鲁棒图像特征图。我们证明，通过采用基本的即时调整技术，可以利用稳定扩散的固有潜力，从而比以前的方法显着提高准确性。我们进一步引入了一种新颖的条件提示模块，该模块根据输入图像对的局部细节进行提示，从而进一步提高性能。我们将我们的方法指定为 SD4Match，是语义匹配稳定扩散的缩写。 SD4Match 对 PF Pascal、PF Willow 和 SPair 71k 数据集的综合评估表明，它为所有这些数据集的准确性树立了新的基准。

Instability of computer vision models is a necessary result of the task itself
Authors Oliver Turnbull, George Cevora
由于当前计算机视觉模型的不稳定性而产生的对抗性示例是一个极其重要的主题，因为它们有可能损害任何应用程序。在本文中，我们证明了由于数据的对称性平移不变性、分类任务的分类性质以及将图像分类为对象本身的基本差异，不稳定是不可避免的。训练数据的不详尽标记进一步加剧了这个问题。因此我们得出结论，不稳定是目前计算机视觉问题表述方式的必然结果。虽然问题无法消除，但通过分析原因，我们找到了部分缓解问题的方法。

Evaluating Bias and Fairness in Gender-Neutral Pretrained Vision-and-Language Models
Authors Laura Cabello, Emanuele Bugliarello, Stephanie Brandl, Desmond Elliott
众所周知，预先训练的机器学习模型会延续甚至放大数据中现有的偏差，这可能会导致不公平的结果，最终影响用户体验。因此，了解这些偏见背后的机制至关重要，以确保模型性能不会导致对某些群体或人群的歧视行为。在这项工作中，我们将性别偏见定义为我们的案例研究。我们量化了预训练中以及对三个视觉和语言模型系列进行微调后的偏差放大。我们研究两个学习阶段之间的联系（如果有的话），并评估偏差放大如何影响模型性能。总的来说，我们发现训练前和微调后的偏差放大是独立的。

Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction
Authors Feng Wang, Zilong Chen, Guokang Wang, Yafei Song, Huaping Liu
在本文中，我们提出了掩码时空哈希编码 MSTH，这是一种从多视图或单目视频中有效重建动态 3D 场景的新方法。基于动态场景通常包含大量静态区域而导致存储和计算冗余的观察，MSTH 将动态场景表示为 3D 哈希编码和 4D 哈希编码的加权组合。两个分量的权重由可学习掩模表示，该掩模由基于不确定性的目标引导，以反映每个 3D 位置的空间和时间重要性。通过这种设计，我们的方法可以通过避免对静态区域的冗余查询和修改来降低哈希冲突率，使得用小尺寸的哈希表来表示大量的时空体素成为可能。此外，不需要适应大的时空体素。

FLARE: Fast Learning of Animatable and Relightable Mesh Avatars
Authors Shrisha Bharadwaj, Yufeng Zheng, Otmar Hilliges, Michael J. Black, Victoria Fernandez Abrevaya
我们的目标是从几何精确、逼真、可重新照明且与当前渲染系统兼容的视频中高效地学习个性化的可动画 3D 头部头像。虽然 3D 网格可以实现高效处理并且高度便携，但它们在形状和外观方面缺乏真实感。另一方面，神经表示很现实，但缺乏兼容性，并且训练和渲染速度很慢。我们的主要见解是，通过利用传统计算机图形学的高度优化方法并使用神经网络逼近某些组件，可以通过可微分渲染有效地学习高保真度 3D 网格表示。为此，我们引入了 moniker，这是一种可以从单个单眼视频创建可动画且可重新点亮的网格化身的技术。首先，我们使用网格表示学习规范几何，通过学习的混合形状和线性混合蒙皮权重实现高效的可微分光栅化和简单的动画。其次，我们遵循基于物理的渲染，并将观察到的颜色分解为内在反照率、粗糙度和照明的神经表示，从而允许学习的化身在新场景中重新点亮。由于我们的输入视频是在视野狭窄的单个设备上捕获的，因此对周围环境光进行建模并非易事。基于用于镜面反射建模的分割和近似，我们通过使用由表面粗糙度调制的多层感知器 MLP 来近似预过滤的环境贴图来解决这个问题，从而无需显式地对光进行建模。

Revisiting the Distillation of Image Representations into Point Clouds for Autonomous Driving
Authors Gilles Puy, Spyros Gidaris, Alexandre Boulch, Oriane Sim oni, Corentin Sautier, Patrick P rez, Andrei Bursuc, Renaud Marlet
自监督图像网络可用于非常有效地解决复杂的 2D 任务，例如语义分割、对象发现，并且几乎不需要或不需要下游监督。然而，激光雷达数据上的自监督 3D 网络目前表现不佳。因此，一些方法建议将高质量的自监督 2D 特征提炼到 3D 网络中。最近对自动驾驶数据进行的研究显示出有希望的结果。然而，这些提炼的特征和完全监督的特征之间仍然存在性能差距。在这项工作中，我们重新审视 2D 到 3D 的蒸馏。首先，我们针对语义分割提出了一种简单的方法，与之前的 3D 蒸馏方法相比，该方法取得了显着的改进。其次，我们表明高容量 3D 网络中的蒸馏是获得高质量 3D 特征的关键。这实际上使我们能够显着缩小无监督的蒸馏 3D 特征和完全监督的 3D 特征之间的差距。

A Hybrid Graph Network for Complex Activity Detection in Video
Authors Salman Khan, Izzeddin Teeti, Andrew Bradley, Mohamed Elhoseiny, Fabio Cuzzolin
视频的解释和理解在许多领域提出了一项具有挑战性的计算机视觉任务，例如：自动驾驶和运动分析。解释视频剪辑中发生的动作的现有方法基于时间动作定位 TAL ，它通常识别短期动作。复杂活动检测 CompAD 这一新兴领域将这种分析扩展到长期活动，通过对视频中发生的复杂活动的内部结构进行建模来获得更深入的理解。我们使用混合图神经网络解决 CompAD 问题，该网络将应用于编码局部短期动态场景的图的注意力与建模整体长期活动的时间图相结合。我们的方法如下：首先，我们提出了一种新颖的特征提取技术，对于每个视频片段，通过检测单个对象、跟踪它们，然后从所有代理中提取 3D 特征，为本地场景中的活动元素代理生成时空管管以及整个场景。 ii 接下来，我们构建一个局部场景图，其中代表代理管或场景的每个节点都连接到所有其他节点。然后将注意力应用于该图以获得局部动态场景的整体表示。 iii 最后，所有局部场景图表示通过时间图互连，以估计复杂的活动类及其开始和结束时间。

Cross-modal Active Complementary Learning with Self-refining Correspondence
Authors Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu
近年来，图像文本匹配越来越受到学术界和工业界的关注，这对于理解视觉和文本模式之间的潜在对应关系至关重要。然而，大多数现有方法隐含地假设训练对对齐良好，而忽略了普遍存在的注释噪声（又名噪声对应 NC ），从而不可避免地导致性能下降。尽管一些方法试图解决此类噪声，但它们仍然面临两个具有挑战性的问题：过度记忆过度拟合和NC校正不可靠，尤其是在高噪声下。为了解决这两个问题，我们提出了一种广义的跨模态鲁棒互补学习框架 CRCL ，该框架受益于新颖的主动互补损失 ACL 和高效的自精炼对应校正 SCC 来提高现有方法的鲁棒性。具体来说，ACL 利用主动和互补的学习损失来降低提供错误监督的风险，从而在理论上和实验上证明了针对 NC 的鲁棒性。 SCC利用多重自细化过程和动量校正来扩大校正对应关系的感受野，从而减轻误差累积，实现准确稳定的校正。

Towards Learning Monocular 3D Object Localization From 2D Labels using the Physical Laws of Motion
Authors Daniel Kienzle, Julian Lorenz, Katja Ludwig, Rainer Lienhart
我们提出了一种仅使用 2D 标签在来自单个校准相机的单个图像中精确定位 3D 对象的新颖方法。不需要昂贵的 3D 标签。因此，我们的模型不是使用 3D 标签，而是使用易于注释的 2D 标签以及对象运动的物理知识进行训练。有了这些信息，模型就可以推断出潜在的第三维，即使它在训练过程中从未见过这些信息。我们的方法在合成数据集和真实世界数据集上进行了评估，并且在真实数据实验中我们能够实现仅 6 厘米的平均距离误差。

OTMatch: Improving Semi-Supervised Learning with Optimal Transport
Authors Zhiquan Tan, Kaipeng Zheng, Weiran Huang
半监督学习通过有效利用有限数量的标记数据，同时利用未标记数据中存在的丰富信息，取得了显着的进步。然而，当前的算法通常优先考虑将图像预测与通过自训练技术生成的特定类别对齐，从而忽略了这些类别中存在的内在关系。在本文中，我们提出了一种称为 OTMatch 的新方法，该方法通过采用最佳传输损失函数来利用类之间的语义关系。通过利用最佳传输，我们提出的方法始终优于现有的最先进方法。值得注意的是，与当前最先进的方法 FreeMatch 相比，我们观察到准确率显着提高了一定百分比。在每类 1 个标签的 CIFAR 10、每类 4 个标签的 STL 10 和每类 100 个标签的 ImageNet 上，OTMatch 分别比 FreeMatch 降低了 3.18、3.46 和 1.28 的错误率。

Sign Languague Recognition without frame-sequencing constraints: A proof of concept on the Argentinian Sign Language
Authors Franco Ronchetti, Facundo Manuel Quiroga, C sar Estrebou, Laura Lanzarini, Alejandro Rosete
自动手语识别SLR是人机交互和机器学习领域的一个重要课题。一方面，它提出了复杂的挑战，需要视频处理、图像处理、智能系统和语言学等各个知识领域的介入。

Uncertainty-weighted Loss Functions for Improved Adversarial Attacks on Semantic Segmentation
Authors Kira Maag, Asja Fischer
最先进的深度神经网络已被证明在语义分割等各种感知任务中极其强大。然而，这些网络很容易受到输入的对抗性扰动的影响，这些扰动对于人类来说是难以察觉的，但却会导致错误的预测。将图像分割视为像素级分类的总和，为分类模型开发的对抗性攻击被证明也适用于分割模型。在这项工作中，我们为此类攻击的损失函数提出了简单的基于不确定性的加权方案，即对更容易受到干扰的像素分类赋予更高的权重，并将与那些已经被自信错误分类的像素相对应的像素损失归零。

LSA64: An Argentinian Sign Language Dataset
Authors Franco Ronchetti, Facundo Manuel Quiroga, C sar Estrebou, Laura Lanzarini, Alejandro Rosete
自动手语识别是一个涵盖人机交互、计算机视觉和机器学习的研究领域。强大的手语自动识别功能可以帮助翻译过程和听力障碍人士的融入，以及向听力正常人群教授手语。手语在不同国家甚至地区存在显着差异，其语法和语义也与书面语言不同。虽然不同语言的自动手语识别技术大多相同，但训练新语言的识别系统需要拥有该语言的完整数据集。本文介绍了来自阿根廷手语 LSA 的 64 个手语数据集。该数据集名为 LSA64，包含 10 名受试者录制的 64 种不同 LSA 手势的 3200 个视频，是构建阿根廷手势综合研究级数据集的第一步，专门针对手语识别或其他机器学习任务。做出手势的受试者戴着彩色手套，以简化手部跟踪和分割步骤，从而使数据集上的实验能够专门关注手势识别。

Handshape recognition for Argentinian Sign Language using ProbSom
Authors Franco Ronchetti, Facundo Manuel Quiroga, C sar Estrebou, Laura Lanzarini
自动手语识别是人机交互和机器学习领域的一个重要课题。一方面，它提出了复杂的挑战，需要视频处理、图像处理、智能系统和语言学等各个知识领域的介入。

Distribution of Action Movements (DAM): A Descriptor for Human Action Recognition
Authors Facundo Manuel Quiroga, Franco Ronchetti, Laura Lanzarini, Cesar Eestrebou
骨骼数据的人类动作识别是一个重要且活跃的研究领域，其中现有技术尚未在许多众所周知的数据集上实现近乎完美的准确性。在本文中，我们介绍了动作运动描述符的分布，这是一种新颖的动作描述符，基于帧之间关节运动方向在数据集中所有可能运动的集合上的分布。描述符被计算为关节的一组代表性方向上的归一化直方图，这些方向又通过聚类获得。

AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors
Authors You Ming Chang, Chen Yeh, Wei Chen Chiu, Ning Yu
深度生成模型可以创建非常逼真的假图像，同时引起人们对错误信息和版权侵权的担忧，即深度造假威胁。 Deepfake检测技术是为了区分真假图像而开发的，现有方法通常学习图像域或各种特征域中的分类器。然而，针对新兴和更先进的生成模型的深度伪造检测的普遍性仍然具有挑战性。在本文中，受到视觉语言模型 VLM 的零样本优势的启发，我们提出了一种使用 VLM 的新颖方法，例如指导 BLIP 和提示调整技术，以提高对不可见数据的 Deepfake 检测精度。我们将 Deepfake 检测制定为视觉问答问题，并调整 InstructBLIP 的软提示来回答查询图像的真实虚假信息。我们对 3 个 Holdin 和 13 个 Holdout 生成模型的数据集进行了全方位实验，涵盖现代文本到图像生成、图像编辑和图像攻击。结果表明，1 深度伪造检测准确度可以显着且持续地从 58.8 提高到 91.31，使用预先训练的视觉语言模型并进行及时调整，平均准确度超过未见过的数据 2 我们的卓越性能是以可训练参数的成本更低为基础的，从而产生了有效且有效的检测结果。 Deepfake 检测的有效解决方案。

Circuit as Set of Points
Authors Jialv Zou, Xinggang Wang, Jiahao Guo, Wenyu Liu, Qian Zhang, Chang Huang
随着电路设计规模不断快速增长，人工智能技术在电子设计自动化EDA中被广泛应用，以辅助电路设计。布局布线是物理设计过程中最耗时的部分，如何快速评估布局已成为研究热点。之前的工作要么采用手工方法将电路设计转化为图像，然后使用卷积神经网络CNN提取特征，但受限于手工方法的质量，无法实现端到端训练，或者将电路设计视为图结构并使用图神经网络GNN来提取特征，这需要耗时的预处理。在我们的工作中，我们提出了一种新颖的电路设计视角，将电路组件视为点云，并使用基于 Transformer 的点云感知方法从电路中提取特征。这种方法可以直接从原始数据中提取特征，无需任何预处理，允许端到端训练，并获得高性能。实验结果表明，我们的方法在 CircuitNet 和 ISPD2015 数据集上的拥塞预测任务以及 CircuitNet 数据集上的设计规则检查 DRC 违规预测任务中实现了最先进的性能。我们的方法在相对成熟的点云感知方法和快速发展的 EDA 算法之间建立了一座桥梁，使我们能够利用更多的集体智慧来解决这一任务。

Detection Defenses: An Empty Promise against Adversarial Patch Attacks on Optical Flow
Authors Erik Scheurer, Jenny Schmalfuss, Alexander Lis, Andr s Bruhn
当对抗性补丁放置在任意场景位置时，会破坏光流预测的可靠性。因此，它们对现实世界的运动检测及其下游应用构成了现实的威胁。潜在的补救措施是检测和删除对抗性斑块的防御策略，但它们对潜在运动预测的影响尚未得到研究。在本文中，我们彻底检查了当前可用的检测和去除防御 ILP 和 LGS，用于多种最先进的光流方法，并阐明了它们对最终流预测的质量和鲁棒性的副作用。特别是，我们实施防御感知攻击，以调查当前的防御是否能够抵御考虑防御机制的攻击。我们的实验产生了两个令人惊讶的结果：检测和删除防御不仅会降低良性场景中的光流质量，而且还会损害除 FlowNetC 之外的所有测试光流方法在补丁攻击下的鲁棒性。由于当前采用的检测和消除防御措施无法提供所承诺的光流对抗鲁棒性，因此会引起错误的安全感。

Learning Temporal Sentence Grounding From Narrated EgoVideos
Authors Kevin Flanagan, Dima Damen, Michael Wray
Ego4D 和 EPIC Kitchens 等长格式自我中心数据集的出现给时间句子接地 TSG 的任务带来了新的挑战。与评估此任务的传统基准相比，这些数据集提供了更细粒度的句子，以适应更长的视频。在本文中，我们开发了一种仅使用叙述及其相应的粗略叙述时间戳来学习这些数据集中的句子的方法。我们建议人为地合并剪辑，以使用文本调节注意力以对比方式训练时间基础。与高性能 TSG 方法（例如 TSG 方法）相比，这种剪辑合并 CliMer 方法被证明是有效的。 Ego4D 上的平均 R 1 从 3.9 提高到 5.7，EPIC Kitchens 上的平均 R 1 从 10.7 提高到 13.0。

YOLO-BEV: Generating Bird's-Eye View in the Same Way as 2D Object Detection
Authors Chang Liu, Liguo Zhou, Yanliang Huang, Alois Knoll
车辆感知系统致力于实现对周围环境的全面、快速的视觉解释，以提高安全性和导航能力。我们推出 YOLO BEV，这是一个高效的框架，它利用独特的周围摄像头设置来生成车辆环境的 2D 鸟瞰图。通过战略性地放置八个摄像头（每个摄像头间隔 45 度），我们的系统捕获图像并将其集成为连贯的 3x3 网格格式，保留中心空白，从而提供丰富的空间表示，促进高效处理。在我们的方法中，我们采用YOLO的检测机制，利用其快速响应和紧凑模型结构的固有优势。我们没有利用传统的 YOLO 检测头，而是用定制设计的检测头对其进行了增强，将全景捕获的数据转换为统一的 ego 汽车鸟瞰图。初步结果验证了YOLO BEV在实时车辆感知任务中的可行性。

SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation
Authors Haobo Jiang, Mathieu Salzmann, Zheng Dang, Jin Xie, Jian Yang
在本文中，我们介绍了一种基于 SE 3 扩散模型的点云配准框架，用于现实世界场景中的 6D 物体姿态估计。我们的方法将 3D 配准任务制定为去噪扩散过程，逐步细化源点云的姿态，以获得与模型点云的精确对齐。训练我们的框架涉及两个操作：SE 3 扩散过程和 SE 3 反向过程。 SE 3 扩散过程通过连续注入噪声扰动变换逐渐扰动一对点云的最优刚性变换。相比之下，SE 3 逆向过程侧重于学习去噪网络，该网络逐步细化噪声变换，使其更接近准确姿态估计的最佳变换。与线性欧几里得空间中使用的标准扩散模型不同，我们的扩散模型在 SE 3 流形上运行。这需要利用与 SE 3 相关的线性李代数 mathfrak se 3 来约束扩散和逆过程期间的变换转换。此外，为了有效地训练我们的去噪网络，我们得出了配准特定的变分下界作为模型学习的优化目标。此外，我们表明我们的去噪网络可以用代理配准模型构建，使我们的方法适用于不同的深度配准网络。

Sky Imager-Based Forecast of Solar Irradiance Using Machine Learning
Authors Anas Al lahham, Obaidah Theeb, Khaled Elalem, Tariq A. Alshawi, Saleh A. Alshebeili
提前预测发电厂的输出功率对于电网的稳定和确保不间断服务至关重要。然而，由于自然能源的混乱行为，预测可再生能源非常困难。本文提出了一种从天空图像估计短期太阳辐照度的新方法。所提出的算法从天空图像中提取特征并使用基于学习的技术来估计太阳辐照度。使用两个公开可用的天空图像数据集来评估所提出的机器学习 ML 算法的性能。该数据集包含 2004 年至 2020 年 16 年期间的超过 350,000 张图像，每张图像对应的全局水平辐照度 GHI 作为地面实况。

CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling
Authors Seyedmorteza Sadat, Jakob Buhmann, Derek Bradely, Otmar Hilliges, Romann M. Weber
虽然已知条件扩散模型对数据分布具有良好的覆盖范围，但它们仍然面临输出多样性的限制，特别是当使用高分类器自由指导尺度进行采样以获得最佳图像质量或在小数据集上进行训练时。我们将此问题归因于条件信号在推理中的作用，并为扩散模型提供了一种改进的采样策略，可以增加生成多样性，特别是在高指导尺度下，同时样本质量的损失最小。我们的采样策略通过在推理期间向调节向量添加预定的、单调递减的高斯噪声来对调节信号进行退火，以平衡多样性和条件对齐。我们的条件退火扩散采样器 CADS 可与任何预训练模型和采样算法一起使用，我们证明它提高了各种条件生成任务中扩散模型的多样性。

IndustReal: A Dataset for Procedure Step Recognition Handling Execution Errors in Egocentric Videos in an Industrial-Like Setting
Authors Tim J. Schoonbeek, Tim Houben, Hans Onvlee, Peter H.N. de With, Fons van der Sommen
尽管程序任务的动作识别受到了显着关注，但它有一个根本缺陷，即没有提供动作成功的衡量标准。这限制了此类系统的适用性，尤其是在工业领域内，因为程序操作的结果通常比单纯的执行重要得多。为了解决这个限制，我们定义了程序步骤识别 PSR 的新任务，重点是识别程序步骤的正确完成和顺序。除了新任务之外，我们还展示了多模态 IndustReal 数据集。与当前可用的数据集不同，IndustReal 包含遗漏等程序错误以及执行错误。这些错误的很大一部分仅存在于验证和测试集中，这使得 IndustReal 适合评估算法对新的、看不见的错误的鲁棒性。此外，为了鼓励可重复性并允许使用合成数据训练的可扩展方法，所有部件的 3D 模型都是公开的。为动作识别和装配状态检测以及新的 PSR 任务提供注释和基准性能。

Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics
Authors Shuai Yang, Zhifei Chen, Pengguang Chen, Xi Fang, Shu Liu, Yingcong Chen
缺陷检查在闭环制造系统中至关重要。然而，现有的缺陷检测数据集通常缺乏实际应用所需的精度和语义粒度。在本文中，我们介绍了缺陷谱，这是一个综合基准，可为各种工业缺陷提供精确、语义丰富和大规模的注释。我们的数据集基于四个关键的工业基准，完善了现有注释并引入了丰富的语义细节，区分单个图像中的多种缺陷类型。此外，我们还引入了 Defect Gen，这是一种基于两级扩散的生成器，旨在创建高质量和多样化的缺陷图像，即使在使用有限的数据集时也是如此。 Defect Gen 生成的合成图像显着增强了缺陷检测模型的效率。

Scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution
Authors Zhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou
时空视频超分辨率STVSR任务旨在通过同时执行视频帧插值VFI和视频超分辨率VSR来增强视频的视觉质量。然而，面对额外的时间维度和尺度不一致的挑战，大多数现有的STVSR方法在动态建模不同运动幅度时复杂且不灵活。在这项工作中，我们发现选择适当的处理规模可以在基于流的特征传播中取得显着的好处。我们提出了一种新颖的尺度自适应特征聚合 SAFA 网络，它可以为各个样本自适应地选择具有不同处理尺度的子网络。对四个公共 STVSR 基准的实验表明 SAFA 实现了最先进的性能。

RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments
Authors Mengxue Qu, Yu Wu, Wu Liu, Xiaodan Liang, Jingkuan Song, Yao Zhao, Yunchao Wei
面向意图的目标检测旨在根据特定意图或要求检测所需的目标。例如，当我们想要躺下休息时，我们会本能地寻找合适的选择，例如可以满足我们需求的床或沙发。该领域以前的工作要么受到意图描述数量的限制，要么受到意图对象可用的可供性词汇的限制。这些限制使得在开放环境中有效处理意图变得具有挑战性。为了促进这项研究，我们构建了一个名为 Reasoning Intention Oriented Objects RIO 的综合数据集。特别是，RIO 专门设计用于融合不同的现实世界场景和广泛的对象类别。它提供以下关键功能 1 RIO 中的意图描述表示为自然句子，而不仅仅是单词或动词短语，使它们更加实用和有意义 2 意图描述与场景上下文相关，从而实现更广泛的相关潜在功能对于对象 3，数据集总共包含 40,214 张图像和 130,585 个意图对象对。

BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point Clouds
Authors Corentin Sautier, Gilles Puy, Alexandre Boulch, Renaud Marlet, Vincent Lepetit
我们提出了一种令人惊讶的简单而有效的方法，用于汽车激光雷达点云上 3D 主干的自我监督。我们设计了在同一场景中捕获的激光雷达扫描特征之间的对比损失。文献中已经提出了几种这样的方法，从 PointConstrast（使用点级别的对比度）到最先进的 TARL（使用大致对应于对象的段级别的对比度）。虽然前者的实现非常简单，但它被后者超越，但后者需要昂贵的预处理。在 BEVContrast 中，我们在鸟瞰平面中的 2D 单元级别定义对比度。

Attribute Based Interpretable Evaluation Metrics for Generative Models
Authors Dongkyun Kim, Mingi Kwon, Youngjung Uh
当训练数据集包含 1 1 只狗和猫的比例时，生成 1 1 只狗和猫的生成模型比另一个具有 3 1 只狗和猫的模型更类似于训练物种分布。我们可以使用现有指标来捕捉这种现象吗？不幸的是，我们不能，因为这些指标不提供任何超越多样性的可解释性。在这种情况下，我们提出了一种新的评估协议，用于测量一组生成图像与训练集关于属性强度分布的差异，如下所示。单属性散度 SaD 测量有关单个属性的 PDF 的散度。配对属性散度 PaD 测量关于一对属性的联合 PDF 的散度。它们提供了模型需要克服的属性。为了测量图像的属性强度，我们提出了异构 CLIPScore HCS，它测量具有异构初始点的图像和文本向量之间的余弦相似度。通过 SaD 和 PaD，我们揭示了有关现有生成模型的以下内容。 ProjectedGAN 会生成令人难以置信的属性关系，例如留着胡子的婴儿，尽管它在现有指标方面具有竞争力的分数。扩散模型很难捕捉数据集中的不同颜色。潜在扩散模型的采样时间步长越大，会生成越小的物体，包括耳环和项链。 Stable Diffusion v1.5 比 v2.1 更好地捕获了属性。

Generalizing to Unseen Domains in Diabetic Retinopathy Classification
Authors Chamuditha Jayanga Galappaththige, Gayal Kuruppu, Muhammad Haris Khan
糖尿病视网膜病变 DR .由长期糖尿病引起，是导致视力障碍的第五大原因之一。早期诊断和治疗的过程可能有助于治愈该疾病，但检测过程相当具有挑战性且大多乏味。因此，使用深度学习技术的自动糖尿病视网膜病变分类引起了医学成像界的兴趣。与深度学习的其他几个现实世界应用类似，依赖于深度学习的 DR 分类也违反了独立同分布数据的典型假设。因此，开发对未知分布具有鲁棒性的 DR 分类方法具有重要价值。在本文中，我们研究了将模型泛化到不可见的分布或域（也称为 DR 分类中的域泛化）的问题。为此，我们提出了一种简单有效的领域泛化 DG 方法，通过一种新颖的预测软化机制实现视觉转换器 ViT 中的自蒸馏。这种预测软化是一种自适应凸组合，是模型自身知识的热门标签。我们在具有三种不同 ViT 主干的多源和单源 DG 设置下对具有挑战性的开源 DR 分类数据集进行了广泛的实验，以确定我们的方法相对于竞争方法的有效性和适用性。经过彻底的实验后，我们首次报告了几种最先进的 DG 方法在开源 DR 分类数据集上的性能。最后，我们的方法还能够提供比其他方法更好的校准性能，表明其适用于包括医疗保健在内的安全关键应用。

Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification
Authors Jiachen Li, Xiaojin Gong
这项工作旨在采用大规模预训练视觉语言模型，例如对比语言图像预训练 CLIP，以增强跨各种监督设置的对象重新识别 Re ID 的性能。尽管即时学习使最近一项名为 CLIP ReID 的工作取得了可喜的性能，但由于 ReID 任务中缺乏语义标签，即时学习的基本机制和必要性仍不清楚。在这项工作中，我们首先分析 CLIP ReID 中的角色提示学习并确定其局限性。根据我们的调查，我们提出了一种简单而有效的方法来将 CLIP 应用于监督对象重新识别。我们的方法使用原型对比学习 PCL 损失直接微调 CLIP 的图像编码器，从而消除了即时学习的需要。人和车辆 Re ID 数据集上的实验结果证明了我们的方法与 CLIP ReID 相比的竞争力。

Emotion Recognition by Video: A review
Authors Junxiao Xue, Jie Wang, Xuecheng Wu, Liangyu Fu
视频情感识别是情感计算的重要分支，其解决方案可应用于人机交互HCI、智能医疗等不同领域。尽管情感识别领域发表的论文数量不断增加，但涵盖视频情感识别相关研究的综合文献综述却很少。因此，本文选取2015年至2023年发表的文章来系统梳理相关研究中视频情感识别的现有趋势。在本文中，我们首先讨论两种典型的情感模型，然后讨论视频情感识别中经常使用的数据库，包括单模态数据库和多模态数据库。接下来，我们对现代单模态和多模态视频情感识别方法的具体结构和性能进行研究和分类，讨论每种方法的优点和缺点，然后我们在表格中详细比较它们。此外，我们总结了视频情感识别项目目前面临的主要困难，并指出了可能最令人鼓舞的未来方向，例如建立开放的基准数据库和更好的多模态融合策略。

Weakly-Supervised Surgical Phase Recognition
Authors Roy Hirsch, Regev Cohen, Mathilde Caron, Tomer Golany, Daniel Freedman, Ehud Rivlin
计算机辅助手术系统的一个关键要素是手术视频的相位识别。现有的相位识别算法需要对大量视频进行逐帧注释，这既费时又费钱。在这项工作中，我们将图分割的概念与自监督学习结合起来，得出每帧相位预测的随机游走解决方案。此外，我们在我们的方法中利用了两种形式的弱监督稀疏时间戳或少样本学习。所提出的算法复杂度低，并且可以在低数据范围内运行。

Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping
Authors Feng Zhang, Ming Tian, Zhiqiang Li, Bin Xu, Qingbo Lu, Changxin Gao, Nong Sang
色调映射旨在将高动态范围 HDR 图像转换为低动态范围 LDR 表示，这是相机成像流程中的一项关键任务。近年来，基于 3 维查找表 3D LUT 的方法因其在增强性能和计算效率之间取得良好平衡的能力而受到关注。然而，这些方法通常无法在局部区域提供令人满意的结果，因为查找表是色调映射的全局运算符，其基于像素值工作并且无法合并关键的局部信息。为此，本文旨在通过探索一种利用封闭式拉普拉斯金字塔分解和重构来集成全局和局部算子的新策略来解决这个问题。具体来说，我们采用图像自适应 3D LUT 通过利用频率信息的特定特征来操纵低频图像中的色调。此外，我们利用局部拉普拉斯滤波器以自适应方式细化高频分量中的边缘细节。局部拉普拉斯滤波器广泛用于保留照片中的边缘细节，但其传统用法涉及手动调整和相机成像管道或照片编辑工具中的固定实现。我们建议使用轻量级网络从注释数据中逐步学习局部拉普拉斯滤波器的参数值映射。我们的模型以端到端的方式同时实现全局色调操作和局部边缘细节保留。

Exploring Iterative Refinement with Diffusion Models for Video Grounding
Authors Xiao Liang, Tao Shi, Yaoyuan Liang, Te Tao, Shao Lun Huang
视频接地旨在定位未修剪视频中与给定句子查询相对应的目标时刻。现有方法通常从一组预定义的建议中选择最佳预测，或者以单次方式直接回归目标跨度，导致缺乏系统的预测细化过程。在本文中，我们提出了 DiffusionVG，一种具有扩散模型的新颖框架，它将视频接地制定为条件生成任务，其中目标跨度是从高斯噪声输入生成的，并在反向扩散过程中进行交互细化。在训练过程中，DiffusionVG 通过固定的前向扩散过程逐步向目标跨度添加噪声，并学习在反向扩散过程中恢复目标跨度。在推理中，DiffusionVG 可以通过以视频句子表示为条件的学习反向扩散过程，从高斯噪声输入生成目标跨度。我们的 DiffusionVG 遵循编码器解码器架构，它首先对视频句子特征进行编码，并在其专门的跨度细化解码器中迭代地对预测跨度进行去噪。

Blind Image Super-resolution with Rich Texture-Aware Codebooks
Authors Rui Qin, Ming Sun, Fangyuan Zhang, Xing Wen, Bin Wang
基于高分辨率HR重建码本的盲超分辨率BSR方法近年来取得了可喜的成果。然而，我们发现基于 HR 重建的码本可能无法有效捕获低分辨率 LR 和 HR 图像之间的复杂相关性。具体来说，由于复杂的盲降级，多个 HR 图像可能会产生类似的 LR 版本，从而导致在面对混乱的 LR 输入时仅依赖于 HR 的码本具有有限的纹理多样性。为了缓解这个问题，我们提出了基于丰富纹理感知代码本的网络 RTCNet ，它由退化鲁棒纹理先验模块 DTPM 和补丁感知纹理先验模块 PTPM 组成。 DTPM 通过利用纹理的跨分辨率对应关系，有效地挖掘 LR 和 HR 图像之间纹理的跨分辨率相关性。 PTPM 使用补丁式语义预训练来纠正高级语义正则化中纹理相似性的错误感知。利用这一点，RTCNet 有效地消除了 BSR 场景中 HR 和 LR 之间混淆纹理的错位问题。

Understanding the Effects of Projectors in Knowledge Distillation
Authors Yudong Chen, Sen Wang, Jiajun Liu, Xuwei Xu, Frank de Hoog, Brano Kusy, Zi Huang
传统上，在知识蒸馏过程中，例如特征蒸馏时，由于教师和学生网络之间的维度不匹配，通常需要额外的投影仪来执行特征转换。有趣的是，我们发现即使学生和老师具有相同的特征尺寸，添加投影仪仍然有助于提高蒸馏性能。此外，如果我们将投影仪也添加到架构中，它们甚至可以改善逻辑蒸馏。受到这些令人惊讶的发现以及现有文献中对投影仪在知识蒸馏过程中普遍缺乏了解的启发，本文研究了投影仪所发挥的隐含作用，但迄今为止一直被忽视。我们的实证研究表明，当拥有投影仪 1 的学生与教师具有相同的特征维度时，与没有投影仪的学生相比，拥有投影仪 1 的学生在训练精度和测试精度之间获得了更好的权衡，2 更好地保留了与教师的相似性从 Centered Kernel Alignment CKA 的角度来看，超越了浅层和数字上的相似性，并且 3 避免了像老师在测试阶段那样过度自信。受投影仪积极影响的启发，我们提出了一种基于投影仪集成的特征蒸馏方法，以进一步提高蒸馏性能。尽管所提出的策略很简单，但基准数据集上分类任务评估的实证结果证明了我们的方法在广泛的师生对上的优越分类性能，并从 CKA 和模型校准方面验证了学生的特征

Bridging The Gaps Between Token Pruning and Full Pre-training via Masked Fine-tuning
Authors Fengyuan Shi, Limin Wang
尽管 Transformer 在各种计算机视觉任务上取得了成功，但它们仍面临内存和计算成本过高的问题。一些作品提出了动态视觉转换器，通过修剪冗余标记来加速推理。改进令牌修剪的关键是使用训练有素的模型作为初始化，以实现更快的收敛和更好的性能。然而，当前的基础模型通常采用全图像训练，即使用全图像作为输入，并在前向过程中保留整个特征图，这导致与逐渐减少令牌的动态模型不一致，包括计算模式、信息量和令牌选择策略不一致。受到执行掩蔽和重建自监督任务的 MAE 的启发，我们设计了掩蔽微调，通过掩蔽图像块并根据左侧预测图像类标签，来弥合用于初始化的预训练基础模型和基于标记修剪的动态视觉变换器之间的差距未屏蔽的补丁。 ImageNet 上的大量实验表明，通过屏蔽微调的基础模型可以获得强大的遮挡鲁棒性和防止信息丢失的能力。通过这种更好的初始化，Dynamic ViT 实现了更高的精度，特别是在大令牌剪枝率下，例如基于 DeiT 的 Dynamic ViT 0.8 和 Dynamic ViT 0.3 为 81.9 与 81.3 以及 62.3 与 58.9 。

A Deep Learning Approach to Teeth Segmentation and Orientation from Panoramic X-rays
Authors Mrinal Kanti Dhar, Mou Deb, D. Madhab, Zeyun Yu
准确的牙齿分割和方向是现代口腔保健的基础，可以实现精确的诊断、治疗计划和牙种植体设计。在这项研究中，我们利用深度学习技术，提出了一种从全景 X 射线图像中进行牙齿分割和定位的综合方法。我们基于 FUSegNet（一种最初为伤口分割开发的流行模型）构建模型，并通过将基于网格的注意力门合并到跳跃连接中来进行修改。我们通过主成分分析 PCA 引入定向边界框 OBB 生成，以进行精确的牙齿方向估计。在公开的 DNS 数据集（包含 543 个全景 X 射线图像）上评估我们的方法，在牙齿实例分割的比较模型中，我们获得了最高的 Intersection over Union IoU 得分为 82.43，Dice 相似系数 DSC 得分为 90.37。在 OBB 分析中，我们获得 Rotated IoU RIoU 分数为 82.82 。我们还对单个牙齿标签和分类性能进行详细分析，揭示其优点和缺点。该模型的准确性和多功能性为改善口腔领域的牙科诊断、治疗计划和个性化医疗保健提供了广阔的前景。

MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR
Authors Liao Pan, Yang Feng, Wu Di, Liu Bo, Zhang Xingle
本文旨在通过提出一种高效且计算资源高效的端到端多目标跟踪模型（MO YOLO）来解决多目标跟踪 MOT 领域的关键问题。传统的 MOT 方法通常涉及对象检测和对象跟踪两个独立的步骤，导致计算复杂性和错误传播问题。最近的研究表明，基于 Transformer 架构的端到端 MOT 模型具有出色的性能，但它们需要大量的硬件支持。 MO YOLO结合了YOLO和RT DETR模型的优势，构建了一个高效、轻量级、资源高效的端到端多目标跟踪网络，为多目标跟踪领域提供了新的机遇。

Bridging Phylogeny and Taxonomy with Protein-protein Interaction Networks
Authors Long Huei Chen, Mohana Prasad Sathya Moorthy, Pratyaksh Sharma
蛋白质相互作用 PPI 网络概述了对生物体的新陈代谢和生存至关重要的复杂生物反应。尽管过去对 PPI 网络进行了跨生物体的详细比较，但尚未对个体 PPI 网络如何反映物种关系进行大规模研究。在这项研究中，我们的目标是通过来自 PPI 网络的闪烁信息来增进我们对生命之树和分类学的理解。我们成功创建了 1 基于系统发育中现有物种的已知特征的网络统计预测器，以及 2 使用已知的蛋白质网络统计数据（无论是实验确定还是从头预测）的生物分类器。

Low-Dimensional Gradient Helps Out-of-Distribution Detection
Authors Yingwen Wu, Tao Li, Xinwen Cheng, Jie Yang, Xiaolin Huang
检测分布外的 OOD 样本对于确保深度神经网络 DNN 在现实场景中的可靠性至关重要。虽然之前的研究主要通过前向信息分析来研究分布 ID 和 OOD 数据之间的差异，但 DNN 后向过程中参数梯度的差异尚未引起足够的重视。现有关于梯度差异的研究主要集中在梯度范数的利用上，忽略了梯度方向中嵌入的丰富信息。为了弥补这一差距，在本文中，我们对利用整个梯度信息进行 OOD 检测进行了全面的研究。主要挑战来自于大量网络参数导致的高维梯度。为了解决这个问题，我们建议使用包含主成分的指定子空间对梯度进行线性降维。这种创新技术使我们能够以最小的信息损失获得梯度的低维表示。随后，通过将减小的梯度与各种现有的检测评分函数集成，我们的方法在广泛的检测任务中展示了卓越的性能。例如，在 ImageNet 基准测试中，与当前最先进的方法相比，我们的方法在 95 次召回 FPR95 时，误报率平均降低了 11.15。

Learning depth from monocular video sequences
Authors Zhenwei Luo
从单目视频序列学习单图像深度估计模型是一个非常具有挑战性的问题。在本文中，我们提出了一种新颖的训练损失，使我们能够在训练过程中包含更多图像进行监督。我们提出了一个简单而有效的模型来解释帧间像素运动。我们还设计了一种用于单图像估计的新颖网络架构。

Deep Imbalanced Regression via Hierarchical Classification Adjustment
Authors Haipeng Xiong, Angela Yao
计算机视觉中的回归任务（例如年龄估计或计数）通常通过将目标空间量化为类别来制定为分类。然而，现实世界的数据通常是不平衡的，大多数训练样本位于目标值的头部范围内，而少数样本则跨越通常较大的尾部范围。通过选择类量化，可以将不平衡的回归目标调整为平衡的分类输出，尽管在平衡分类精度和量化误差方面存在权衡。为了提高整个数据范围的回归性能，我们建议构建层次分类器来解决不平衡的回归任务。细粒度分类器限制了量化误差，同时受到粗预测的调节，以确保高精度。然而，标准层次分类方法在应用于回归问题时，无法确保预测范围在整个层次结构中保持一致。因此，我们提出了一种范围保留蒸馏过程，可以有效地从分层分类器集合中学习单个分类器。我们针对不平衡回归的新颖的分层分类调整 HCA 在年龄估计、人群计数和深度估计这三个不同的任务上显示出优异的结果。

Technical Note: Feasibility of translating 3.0T-trained Deep-Learning Segmentation Models Out-of-the-Box on Low-Field MRI 0.55T Knee-MRI of Healthy Controls
Authors Rupsa Bhattacharjee, Zehra Akkaya, Johanna Luitjens, Pan Su, Yang Yang, Valentina Pedoia, Sharmila Majumdar
在当前的研究中，我们的目的是评估应用深度学习 DL 算法来量化以 0.55T 扫描的健康对照中的双侧膝关节生物标志物的可行性，并与 3.0T 进行比较。当前的研究通过比较 0.55T 与 3.0T 之间的分割性能、改进区域和区室软骨厚度值，定性和定量地评估了 0.55T 实践中骨和软骨分割算法的标准性能。初步结果表明，在多供应商采集环境中，将现有的基于定量深度学习的图像分割技术转化为良好的技术可行性，这些技术在 3.0T（膝部 MRI 的 0.55T）上进行训练。尤其是在软骨室分割方面，模型的Likert排名几乎相当于3.0T。因此，如图所示，0.55T 低场可持续且易于安装的 MRI 可用于评估膝关节软骨厚度和骨分割，借助最初在较高场强下训练的既定 DL 算法。这可以在缺乏放射科医生来手动分割低场图像的远程护理点使用，至少在整理好低场数据池的基础之前是这样。

Simple Baselines for Projection-based Full-reference and No-reference Point Cloud Quality Assessment
Authors Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai
点云广泛应用于 3D 内容表示，并在多媒体领域有多种应用。然而，压缩和简化过程不可避免地会导致在存储和带宽限制下丢失质量感知信息。因此，越来越需要有效的方法来量化点云的扭曲程度。在本文中，我们提出了基于投影的点云质量评估 PCQA 的简单基线来应对这一挑战。我们使用通过来自点云的常见立方体投影过程获得的多投影来执行完全参考 FR 和无参考 NR PCQA 任务。质量感知特征是通过流行的视觉主干提取的。 FR质量表示被计算为参考和扭曲投影的特征图之间的相似度，而NR质量表示是通过简单地用平均池化压缩扭曲投影的特征图来获得的。相应的质量表示通过全连接回归为视觉质量分数层。

A Classifier Using Global Character Level and Local Sub-unit Level Features for Hindi Online Handwritten Character Recognition
Authors Anand Sharma MIET, Meerut , A. G. Ramakrishnan IISc, Bengaluru
开发了一个分类器，定义全局字符特征、子单元数量和局部子单元特征的联合分布，以对印地语在线手写字符进行建模。分类器使用潜在变量对子单元的结构进行建模。分类器使用点、方向和方向动态 HPOD 特征的直方图来表示全局字符级别和局部子单元级别的字符，并且与字符笔画顺序和笔画方向变化无关。使用最大似然法估计分类器的参数。本研究考虑了其他研究中使用的不同分类器和特征，以便与开发的分类器进行分类性能比较。考虑的分类器是二阶统计 SOS 、子空间 SS 、费舍尔判别 FD 、前馈神经网络 FFN 和支持向量机 SVM ，考虑的特征是时空 ST 、离散傅立叶变换 DFT 、离散余弦变换 SCT 、离散小波变换 DWT 、空间 SP 和定向梯度直方图 HOG。用于训练和测试所开发的分类器的印地语字符数据集由来自 96 个不同字符类别的手写字符样本组成。训练集中有 12832 个样本，平均每个字符类有 133 个样本；测试集中有 2821 个样本，平均每个字符类有 29 个样本。

Comparison of Cross-Entropy, Dice, and Focal Loss for Sea Ice Type Segmentation
Authors Rafael Pires de Lima, Behzad Vahedi, Morteza Karimzadeh
最新的海冰图对于在冰覆盖的水域中安全航行至关重要。最近，卷积神经网络 CNN 模型显示出加速大区域冰图生成的潜力。然而，CNN 模型的结果仍然需要接受审查，因为较高的指标性能并不总能转化为足够的输出。海冰类型类别不平衡，在训练时需要特殊对待。我们评估了三种不同的损失函数（其中一些是针对不平衡类问题而开发的）如何影响训练用于预测 Sentinel 1 图像中主要冰类型的 CNN 模型的性能。

Virtual Accessory Try-On via Keypoint Hallucination
Authors Junhong Gou, Bo Zhang, Li Niu, Jianfu Zhang, Jianlou Si, Chen Qian, Liqing Zhang
虚拟试穿任务是指将一幅图像中的衣服试穿到另一幅肖像图像上。在本文中，我们重点关注虚拟配饰试戴，它将眼镜、领带等配饰戴到脸部或肖像图像上。与依赖人体轮廓作为指导的服装试穿不同，配饰试穿将配饰扭曲到适当的位置和形状，以生成合理的合成图像。与之前尝试平等对待前景（即配件）和背景（即人脸或身体）的方法相比，我们提出了一种面向背景的网络来利用人体和配件的先验知识。具体来说，我们的方法学习人体先验并幻觉背景中指定前景关键点的目标位置。然后我们的方法将把前景信息和辅助先验注入到后台 UNet 中。根据幻觉目标位置，计算扭曲参数以扭曲前景。此外，这种面向背景的网络还可以轻松地结合辅助人脸身体语义分割监督，以进一步提高性能。

Task-driven Prompt Evolution for Foundation Models
Authors Rachana Sathish, Rahul Venkataramani, K S Shriram, Prasad Sudhakar
即时基础模型，特别是 Segment Anything Model SAM，已成为图像分割传统任务特定监督学习的有前途的替代方案。然而，许多评估研究发现，与传统的深度学习方法相比，它们在医学成像模式上的表现并不令人印象深刻。在大型预训练语言和视觉语言模型的世界中，从下游任务中学习提示在提高性能方面取得了相当大的成功。在这项工作中，我们为 SAM SAMPOT 等基础模型提出了一种即插即用的提示优化技术，该技术利用下游分段任务来优化人类提供的提示，以获得更高的性能。我们展示了 SAMPOT 在胸部 X 射线图像中肺部分割的实用性，并在大量病例 sim75 上获得了比人类提供的初始提示更好的改进。

Deep Learning on SAR Imagery: Transfer Learning Versus Randomly Initialized Weights
Authors Morteza Karimzadeh, Rafael Pires de Lima
为了测绘目的，在合成孔径雷达 SAR 数据上部署深度学习变得越来越普遍。海冰就是这样的例子，它由于风、温度和洋流的综合作用而高度动态且迅速变化。因此，有必要频繁绘制海冰图以确保海上航行安全。然而，用于训练深度学习算法的专家标记数据普遍短缺。微调 SAR 图像的预训练模型是一个潜在的解决方案。在本文中，我们将使用随机初始化权重从头开始训练的深度学习模型与为此目的进行微调的预训练模型的性能进行比较。

LP-OVOD: Open-Vocabulary Object Detection by Linear Probing
Authors Chau Pham, Truong Vu, Khoi Nguyen
本文解决了开放词汇对象检测 OVOD 的挑战性问题，其中对象检测器必须识别测试图像中已见和未见的类，而无需在训练中标记未见类的示例。 OVOD 的典型方法是使用 CLIP 的联合文本图像嵌入将框提案分配给最接近的文本标签。然而，该方法存在一个关键问题，许多低质量框（例如上覆盖和下覆盖的对象框）与高质量框具有相同的相似度分数，因为 CLIP 没有接受精确的对象位置信息的训练。为了解决这个问题，我们提出了一种新颖的方法，LP OVOD，通过在从最相关的区域提案中检索到小说文本的伪标签上训练 sigmoid 线性分类器来丢弃低质量的框。 COCO 上的实验结果证实了我们的方法相对于现有技术的卓越性能，使用 ResNet50 作为主干，在文本 AP 小说中实现了 textbf 40.5，并且在训练期间无需外部数据集或了解小说类。

Navigating Data Heterogeneity in Federated Learning: A Semi-Supervised Approach for Object Detection
Authors Taehyeon Kim, Eric Lin, Junu Lee, Christian Lau, Vaikkunth Mugunthan
联邦学习 FL 已成为跨分布式数据源训练模型的有效框架，同时维护数据隐私。然而，它面临着有限的高质量标签和非 IID 客户数据的挑战，特别是在自动驾驶等应用中。为了解决这些障碍，我们探索了半监督联合对象检测 SSFOD 的未知领域。我们提出了一个开创性的 SSFOD 框架，专为标记数据仅驻留在服务器而客户端拥有未标记数据的场景而设计。值得注意的是，我们的方法代表了对具有 0 个标记的非 IID 数据的客户端首次实施 SSFOD，这与之前在每个客户端维护一些标签子集的研究形成鲜明对比。我们提出 FedSTO，这是一种两阶段策略，包括选择性训练和正交增强全参数训练，以有效解决数据转移问题。服务器和客户端之间的天气状况。我们的贡献包括选择性地改进检测器的主干以避免过度拟合、正交正则化以提高表示发散性，以及本地 EMA 驱动的伪标签分配以产生高质量的伪标签。对著名自动驾驶数据集 BDD100K、Cityscapes 和 SODA10M 的广泛验证证明了我们方法的有效性，展示了最先进的结果。

Automating lichen monitoring in ecological studies using instance segmentation of time-lapse images
Authors Safwen Naimi, Olfa Koubaa, Wassim Bouachir, Guillaume Alexandre Bilodeau, Gregory Jeddore, Patricia Baines, David Correia, Andre Arsenault
地衣是由真菌、藻类和/或蓝细菌组成的共生生物，可在各种环境中繁衍生息。它们在碳和氮循环中发挥着重要作用，并直接和间接地促进生物多样性。生态学家通常通过使用地衣作为评估空气质量和栖息地条件的指标来监测地衣。尤其是生活在树上的附生地衣，是空气质量和环境健康的关键标志。监测附生地衣的新方法涉及使用延时相机收集地衣种群的图像。纽芬兰和拉布拉多的生态学家使用这些相机随后分析和手动分割图像，以确定地衣菌体的状况和变化。这些方法既耗时又容易受到观察者偏差的影响。在这项工作中，我们的目标是长期自动监测地衣，并估计其生物量和状况，以促进生态学家的任务。为了实现这一目标，我们提出的框架使用语义分割和有效的训练方法来自动监测和估计延时图像上的附生地衣的生物量。我们表明，我们的方法有可能显着提高地衣种群监测的准确性和效率，使其成为森林生态学家和环境科学家评估气候变化对加拿大森林影响的宝贵工具。

HCT: Hybrid Convnet-Transformer for Parkinson's disease detection and severity prediction from gait
Authors Safwen Naimi, Wassim Bouachir, Guillaume Alexandre Bilodeau
在本文中，我们提出了一种基于新的 Hybrid ConvNet Transformer 架构的新型深度学习方法，用于从步态数据中检测和分期帕金森病 PD。我们采用两步方法，将问题分为两个子问题。我们的混合 ConvNet Transformer 模型首先区分健康患者和帕金森患者。如果患者患有帕金森病，则多类 Hybrid ConvNet Transformer 模型会确定 Hoehn 和 Yahr H Y 评分，以评估 PD 严重程度。我们的混合架构利用卷积神经网络 ConvNet 和 Transformer 的优势来准确检测 PD 并确定严重程度。特别是，我们利用 ConvNet 来捕获数据中的局部模式和相关性，同时利用 Transformer 来处理输入信号中的长期依赖性。我们表明，与其他最先进的方法相比，我们的混合方法实现了卓越的性能，PD 检测精度为 97，严重程度分级精度为 87。

HyperFields: Towards Zero-Shot Generation of NeRFs from Text
Authors Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka
我们介绍了 HyperFields，一种通过单次前向传递和可选的一些微调来生成文本条件神经辐射场 NeRF 的方法。我们方法的关键是一个动态超网络，它学习从文本标记嵌入到 NeRF 空间的平滑映射 ii NeRF 蒸馏训练，它将单个 NeRF 中编码的场景蒸馏到一个动态超网络中。这些技术使单个网络能够适应一百多个独特的场景。我们进一步证明，HyperFields 学习文本和 NeRF 之间更通用的映射，因此能够零样本或通过一些微调步骤来预测分布中和分布外场景中的小说。微调超场受益于学习通用映射的加速收敛，并且能够比现有基于神经优化的方法快 5 到 10 倍地合成新场景。

Exploring Question Decomposition for Zero-Shot VQA
Authors Zaid Khan, Vijay Kumar BG, Samuel Schulter, Manmohan Chandraker, Yun Fu
视觉问答 VQA 传统上被视为单步任务，其中每个问题都需要付出相同的努力，这与自然的人类问答策略不同。我们探索了 VQA 的问题分解策略来克服这一限制。我们探讨了最近开发的大型视觉语言模型使用人类书面分解并生成自己的视觉问题分解的能力，发现它们能够仅通过演示来学习这两项任务。然而，我们表明，模型书面分解的天真应用可能会损害性能。我们引入了一种模型驱动的选择性分解方法，用于二次猜测预测和纠正错误，并在三个领域的 8 个 VQA 任务上验证其有效性，显示出准确性的持续改进，包括在医学 VQA 数据集上改进 20 并提高 BLIP 的零样本性能在具有挑战性的 Winoground 任务的 VQA 重新制定中，有 2 个以上机会。

Trust, but Verify: Robust Image Segmentation using Deep Learning
Authors Fahim Ahmed Zaman, Xiaodong Wu, Weiyu Xu, Milan Sonka, Raghuraman Mudumbai
我们描述了一种验证用于医学图像分割的深度神经网络的输出的方法，该方法对几类随机以及最坏情况的扰动（即对抗性攻击）具有鲁棒性。该方法基于作者最近开发的一种称为“信任但验证”的通用方法，其中辅助验证网络使用分割作为输入来生成有关输入图像中某些屏蔽特征的预测。当输入分割准确时，设计良好的辅助网络将产生高质量的预测，但当分割不正确时，将产生低质量的预测。使用原始图像检查此类网络的预测使我们能够检测不良分割。然而，为了确保验证方法真正稳健，我们需要一种本身不依赖于黑盒神经网络的方法来检查预测的质量。事实上，我们表明，以前使用深度神经回归网络的分割评估方法很容易出现假阴性，即可以不准确地将坏分割标记为好分割。

An Efficient Deep Learning-based approach for Recognizing Agricultural Pests in the Wild
Authors Mohtasim Hadi Rafi, Mohammad Ratul Mahjabin, Md Sabbir Rahman
农民面临的最大挑战之一是在农产品产量期间防治害虫。只要及时采取预防措施，问题就很容易解决，避免经济损失。这需要以简单有效的方式识别害虫。大多数昆虫物种之间都有相似之处。如果没有农学家院士的适当帮助，农民准确识别农作物病虫害是非常具有挑战性的。为了解决这个问题，我们进行了广泛的实验，考虑了不同的方法，以找出最好的方法。本文详细概述了主要在名为 IP102 的稳健数据集上进行的实验，包括带有微调的迁移学习、注意力机制和自定义架构。

Unsupervised Domain Adaptation for Semantic Segmentation with Pseudo Label Self-Refinement
Authors Xingchen Zhao, Niluthpol Chowdhury Mithun, Abhinav Rajvanshi, Han Pang Chiu, Supun Samarasekera
当使用与训练期间使用的特征不同的数据进行测试时，基于深度学习的语义分割解决方案会遭受显着的性能下降。使用新领域的带注释数据来调整模型并不总是可行的。无监督域适应 UDA 方法对于在实际操作条件下部署这些模型至关重要。最近最先进的 SOTA UDA 方法采用教师学生自我训练方法，其中教师模型用于为新数据生成伪标签，从而指导学生模型的训练过程。尽管这种方法取得了很大的成功，但它遇到了训练过程中传播噪声伪标签的问题。为了解决这个问题，我们提出了一种辅助伪标签细化网络 PRN，用于在线细化伪标签，并定位预测标签可能有噪声的像素。 PRN 能够提高伪标签的质量并选择高度可靠的标签，有助于分割模型的自我训练，使其在适应的不同阶段对伪标签噪声传播具有鲁棒性。

Diagnosing Alzheimer's Disease using Early-Late Multimodal Data Fusion with Jacobian Maps
Authors Yasmine Mustafa, Tie Luo
阿尔茨海默病 AD 是一种普遍存在且使人衰弱的神经退行性疾病，影响着大量老龄化人口。在所有症状前和症状阶段检测 AD 对于早期干预和治疗至关重要。一个活跃的研究方向是探索利用多模态数据融合的机器学习方法，以超越人类对医学扫描的检查。然而，现有的多模态融合模型存在局限性，包括冗余计算、复杂的架构以及对缺失数据的简单处理。此外，医学扫描的预处理流程仍然不够详细，并且很少针对个体受试者进行优化。在本文中，我们提出了一种高效的早期后期融合 ELF 方法，该方法利用卷积神经网络进行自动特征提取，并利用随机森林在小数据集上提高其竞争性能。此外，我们引入了一个强大的预处理管道，可以适应个体受试者的独特特征，并利用整个大脑图像而不是切片或补丁。此外，为了应对检测大脑体积细微变化的挑战，我们将图像转换为雅可比域 JD，以提高分类的准确性和鲁棒性。

Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs
Authors Jianwei Fei, Zhihua Xia, Benedetta Tondi, Mauro Barni
我们提出了一种新颖的多位盒无水印方法，用于保护 GAN 的知识产权，提高了针对微调、剪枝、量化和代理模型攻击等白盒攻击的鲁棒性。通过在 GAN 训练期间添加额外的水印损失项来嵌入水印，确保 GAN 生成的图像包含不可见的水印，可以由预先训练的水印解码器检索。为了提高针对白盒模型级攻击的鲁棒性，我们确保模型收敛到水印损失项的宽平坦最小值，这样模型参数的任何修改都不会擦除水印。为此，我们将随机噪声向量添加到生成器的参数中，并要求水印损失项对于噪声的存在尽可能保持不变。该过程迫使生成器收敛到水印损失的宽平坦最小值。所提出的方法与架构和数据集无关，因此适用于许多不同的生成任务和模型，以及基于 CNN 的图像处理架构。

MCUFormer: Deploying Vision Tranformers on Microcontrollers with Limited Memory
Authors Yinan Liang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Zhou Jie, Jiwen Lu
由于GPU价格高、能耗大，在微控制器等物联网设备上部署深度模型对生态AI做出了重大贡献。传统方法成功地在微控制器上实现了高分辨率图像的卷积神经网络推理，而在许多视觉应用中实现最先进性能的视觉转换器框架仍未得到探索。在本文中，我们提出了一种名为 MCUFormer 的硬件算法协同优化方法，在内存极其有限的微控制器上部署视觉 Transformer，我们共同设计 Transformer 架构并构建推理算子库以适应内存资源限制。更具体地说，我们推广了一次性网络架构搜索 NAS，以在给定微控制器的内存预算的情况下发现具有最高任务性能的最佳架构，其中我们通过考虑低秩分解维度和补丁分辨率来扩大视觉变压器的现有搜索空间记忆减少。在构建视觉变压器的推理算子库时，我们通过算子集成、补丁嵌入分解和令牌覆盖来调度推理过程中的内存缓冲区，从而充分利用内存缓冲区来适应视觉变压器的前向传递。实验结果表明，我们的 MCUFormer 在 STM32F746 微控制器上使用 320KB 内存的 ImageNet 图像分类上实现了 73.62 top 1 准确率。

MACP: Efficient Model Adaptation for Cooperative Perception
Authors Yunsheng Ma, Juanwu Lu, Can Cui, Sicheng ZHao, Xu Cao, Wenqian Ye, Ziran Wang
车对车 V2V 通信通过实现信息共享以穿透遮挡，极大地增强了联网和自动驾驶车辆的感知能力，从而显着提高了性能。然而，当现有的单智能体模型表现出显着的泛化能力时，从头开始开发和训练复杂的多智能体感知模型可能是昂贵且不必要的。在本文中，我们提出了一种称为 MACP 的新框架，该框架为单个代理预训练模型配备了合作能力。我们通过确定从单一代理转向合作设置的关键挑战、通过冻结大部分参数并添加一些轻量级模块来调整模型来实现这一目标。我们在实验中证明，所提出的框架可以有效地利用合作观察，并在模拟和现实世界的合作感知基准中优于其他最先进的方法，同时需要更少的可调参数并降低通信成本。

4D-Editor: Interactive Object-level Editing in Dynamic Neural Radiance Fields via 4D Semantic Segmentation
Authors Dadong Jiang, Zhihui Ke, Xiaobo Zhou, Xidong Shi
本文针对交互式对象级编辑，例如动态场景中的删除、重新着色、变换、合成。最近，以神经辐射场 NeRF 为代表的一些旨在灵活编辑静态场景的方法已经显示出令人印象深刻的合成质量，而在时变动态场景中的类似能力仍然有限。为了解决这个问题，我们提出了 4D Editor，这是一种交互式语义驱动的编辑框架，允许根据单个帧上的用户笔画在动态 NeRF 中编辑多个对象。我们的动态场景表示建立在混合语义特征字段的基础上，以便在编辑后可以保持时空一致性。此外，我们设计了递归选择细化，可显着提高动态 NeRF 中的分割准确性，以帮助编辑过程。此外，我们还开发了多视图重投影修复来填补编辑后因场景捕获不完整而造成的漏洞。大量的实验和现实世界的编辑示例表明，4D Editor 实现了照片级逼真的动态 NeRF 编辑。

GraFT: Gradual Fusion Transformer for Multimodal Re-Identification
Authors Haoli Yin, Jiayao Li Emily , Eva Schiller, Luke McDermott, Daniel Cummings
对象重新识别 ReID 在计算机视觉中至关重要，见证了对熟练多模态表示学习的需求不断增长。当前的模型虽然很有希望，但随着模态的增加，暴露出可扩展性的限制，因为它们严重依赖后期融合，从而推迟了特定模态见解的集成。为了解决这个问题，我们引入了用于多模态 ReID 的渐进融合变压器 GraFT。 GraFT 的核心是采用可学习的融合标记来引导编码器之间的自我关注，从而熟练地捕获特定于模态和特定于对象的特征。为了进一步增强其功效，我们引入了一种新颖的训练范例，与增强的三元组损失相结合，优化了 ReID 特征嵌入空间。我们通过广泛的消融研究展示了这些增强功能，并表明 GraFT 始终超越既定的多模态 ReID 基准。

Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model
Authors Karsten Roth, Lukas Thede, Almut Sophia Koepke, Oriol Vinyals, Olivier H naff, Zeynep Akata
训练深度网络需要各种设计决策，例如其架构、数据增强或优化。在这项工作中，我们发现这些训练变化导致网络从数据中学习独特的特征集。使用包含数千个在 ImageNet 等规范数据集上训练的模型的公共模型库，我们观察到，对于预训练模型的任意配对，一个模型提取了另一个模型中不可用的重要数据上下文，而与整体性能无关。给定预训练模型的任意配对，并且没有外部排名，例如单独的测试集，例如由于数据隐私，我们研究是否有可能将这种补充知识从一个模型转移到另一个模型而不降低性能，这项任务变得特别困难，因为额外的知识可以包含在更强、同等或更弱的模型中。然而，在与预训练模型配对无关的场景中促进稳健的迁移将解锁来自任何模型存储库的辅助增益和知识融合，而不受模型和问题细节（包括较弱、性能较低的模型）的限制。因此，这项工作对这种通用知识转移的可行性进行了初步、深入的探索。在大规模实验中，我们首先揭示了标准知识蒸馏技术的缺点，然后通过数据分区提出了更通用的扩展，以便在几乎所有预训练模型之间成功传输，我们证明这也可以在无监督的情况下完成。

6-DoF Stability Field via Diffusion Models
Authors Takuma Yoneda, Tianchong Jiang, Gregory Shakhnarovich, Matthew R. Walter
机器人操纵的核心能力是推理在杂乱的环境中将物体稳定地放置在何处以及如何放置。传统上，机器人依赖于特定于对象的手工启发式方法来执行此类推理，除了少量对象实例和对象交互模式外，其通用性有限。最近的方法改为学习物理交互的概念，即运动预测，但需要以标记对象信息的形式进行监督，或者以高样本复杂性为代价，并且不会直接推理稳定性或对象放置。我们提出了 6 DoFusion，这是一种生成模型，能够生成对象的 3D 姿势，从而生成给定场景的稳定配置。 6 DoFusion 的底层是一个扩散模型，它逐步细化随机初始化的 SE 3 姿势，以根据稳定姿势上学习的、上下文相关的分布生成样本。

Defending Against Transfer Attacks From Public Models
Authors Chawin Sitawarin, Jaewon Chang, David Huang, Wesson Altoyan, David Wagner
对抗性攻击一直是行业中迫在眉睫且尚未解决的威胁。然而，通过鲁棒性评估文献长达十年的历史，我们了解到发起强大或最佳的攻击是具有挑战性的。它需要机器学习和领域专业知识。换句话说，过去大多数文献都虔诚地假设的白盒威胁模型是不现实的。在本文中，我们提出了一种新的实用威胁模型，其中对手依赖于通过公开可用的代理模型进行转移攻击。我们认为，这种设置将成为未来安全敏感应用程序中最普遍的设置。我们评估了这种情况下的转移攻击，并提出了一种基于博弈论视角的专门防御方法。在 CIFAR 10、CIFAR 100 和 ImageNet 三个数据集上的 24 个公共模型和 11 种攻击算法下对防御进行了评估。在这种威胁模型下，我们的防御 PubDef 大大优于最先进的白盒对抗训练，而正常准确度几乎没有损失。例如，在 ImageNet 上，我们的防御在最强的传输攻击下达到了 62 的准确率，而最好的对抗训练模型仅达到 36。其在未受到攻击时的准确度仅比未防御模型的 78 vs 80 低 2。

torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies: A Case Study on NLP
Authors Yoshitomo Matsubara
由于深度学习最新进展所支持的研究领域的快速发展，科学工作的可重复性在机器学习、自然语言处理和计算机视觉等研究社区中变得越来越重要。在这项工作中，我们提出了 torchdistill 的显着升级版本，这是一个模块化驱动的免编码深度学习框架，比初始版本显着升级，它仅支持图像分类和对象检测任务，以进行可重复的知识蒸馏实验。为了证明升级后的框架可以通过第三方库支持更多任务，我们使用基于升级后的 torchdistill 的脚本重现了 BERT 模型的 GLUE 基准测试结果，并与各种 Hugging Face 库协调一致。用于重现结果的所有 27 个经过微调的 BERT 模型和配置均已发布在 Hugging Face 上，并且模型权重已在研究社区中广泛使用。

Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models
Authors Tsun Hsuan Wang, Alaa Maalouf, Wei Xiao, Yutong Ban, Alexander Amini, Guy Rosman, Sertac Karaman, Daniela Rus
随着自动驾驶技术的成熟，端到端方法已成为一种领先策略，有望通过深度学习实现从感知到控制的无缝集成。然而，现有系统面临着意外的开放环境和黑匣子模型的复杂性等挑战。与此同时，深度学习的发展引入了更大的多模态基础模型，提供了多模态的视觉和文本理解。在本文中，我们利用这些多模态基础模型来增强自动驾驶系统的鲁棒性和适应性，从而实现分布式、端到端、多模态和更可解释的自主性。具体来说，我们提出了一种应用端到端开放集任何环境场景自动驾驶的方法，该方法能够根据可通过图像和文本查询的表示提供驾驶决策。为此，我们引入了一种从转换器中提取细微的空间像素块对齐特征的方法，以实现空间和语义特征的封装。我们的方法 i 在不同的测试中展示了无与伦比的结果，同时在分布之外的情况下实现了显着更高的鲁棒性，并且 ii 允许通过文本合并潜在空间模拟，以便通过文本和策略调试改进训练数据增强。

MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations
Authors Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox
事实证明，从大量人类演示中进行的模仿学习是构建有能力的机器人代理的有效范例。然而，收集演示的成本非常高且耗时。我们介绍了 MimicGen，这是一个系统，可以通过使数据适应新的环境，从少量的人类演示中自动合成大规模、丰富的数据集。我们使用 MimicGen 从 200 个人类演示中生成了跨 18 个任务的超过 50K 个演示，其中包含不同的场景配置、对象实例和机器人手臂。我们表明，机器人代理可以通过模仿学习在生成的数据集上进行有效训练，以在广泛的初始状态分布中在长期和高精度任务（例如多部件组装和咖啡准备）中实现强大的性能。我们进一步证明，MimicGen 数据的有效性和实用性优于收集额外的人类演示，这使其成为扩大机器人学习规模的强大且经济的方法。

SoK: Pitfalls in Evaluating Black-Box Attacks
Authors Fnu Suya, Anshuman Suri, Tingwei Zhang, Jingtao Hong, Yuan Tian, David Evans
许多作品研究对图像分类器的黑盒攻击。然而，这些作品对对手的知识做出了不同的假设，并且当前的文献缺乏以威胁模型为中心的有凝聚力的组织。为了使该领域的知识系统化，我们提出了一种针对威胁空间的分类法，涵盖反馈粒度、交互式查询的访问以及攻击者可用的辅助数据的质量和数量。我们的新分类法提供了三个关键见解。 1 尽管有大量文献报道，但仍然存在许多尚未探索的威胁空间，这些威胁空间不能通过采用充分探索的环境中的技术来轻松解决。我们通过采用来自充分探索的访问完整置信向量的设置的技术，在较少研究的访问前 k 置信度得分的设置中建立一种新的最先进技术来证明这一点，但表明它仍然达不到更严格的设置，即仅获得预测标签，凸显需要进行更多研究。 2 识别不同攻击的威胁模型揭示了挑战现有技术主张的更强基线。我们通过代理模型增强交互式查询访问下最初较弱的基线来证明这一点，有效地推翻了各自论文中的主张。 3 我们的分类揭示了与相关领域紧密相连的攻击者知识之间的相互作用，例如模型反转和提取攻击。我们讨论其他领域的进步如何能够实现更强大的黑盒攻击。最后，我们强调需要通过考虑本地攻击运行时间来更现实地评估攻击成功。

Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings
Authors Yifei Peng, Yu Jin, Zhexu Luo, Yao Xiang Ding, Wang Zhou Dai, Zhong Ren, Kun Zhou
尽管近年来神经视觉生成模型取得了巨大成功，但将它们与强大的符号知识推理系统集成仍然是一项具有挑战性的任务。主要挑战有两个，一是符号分配，即将神经视觉生成器的潜在因素与来自知识推理系统的有意义的符号结合起来。另一个是规则学习，即学习控制数据生成过程的新规则，以增强知识推理系统。为了解决这些符号基础问题，我们提出了一种神经符号学习方法，即溯因视觉生成 AbdGen，用于将逻辑编程系统与基于溯因学习框架的神经视觉生成模型集成。为了实现可靠且高效的符号分配，引入了量化溯因方法，通过语义码本中的最近邻查找来生成溯因建议。为了实现精确的规则学习，提出了对比元溯因方法，以消除正例中的错误规则，同时避免负例中信息量较少的规则。各种基准数据集的实验结果表明，与基线相比，AbdGen 需要明显更少的用于符号分配的实例级标签信息。

C-Disentanglement: Discovering Causally-Independent Generative Factors under an Inductive Bias of Confounder
Authors Xiaoyu Liu, Jiaxin Yuan, Bang An, Yuancheng Xu, Yifan Yang, Furong Huang
表示学习假设现实世界数据是由一些语义上有意义的生成因素（即变异源）生成的，旨在在潜在空间中发现它们。这些因素预计会被因果解开，这意味着不同的因素被编码成单独的潜在变量，并且一个因素的变化不会影响其他因素的值。与统计独立性相比，因果解开可以实现更可控的数据生成、更高的鲁棒性和更好的泛化能力。然而，大多数现有工作都假设发现过程中没有混杂因素，即生成因素没有共同原因，因此仅获得统计独立性。在本文中，我们认识到建模混杂因素在发现因果生成因素方面的重要性。不幸的是，如果没有适当的归纳偏差，这些因素就无法识别。我们通过引入一个名为 Confounded Disentanglement C Disentanglement 的框架来填补这一空白，这是第一个通过领域专业知识的标签明确引入混杂因素归纳偏差的框架。此外，我们相应地提出了一种方法来充分识别混杂因素的任何归纳偏差下的因果分离因素。我们对合成数据集和现实世界数据集进行了广泛的实验。

Three-dimensional Bone Image Synthesis with Generative Adversarial Networks
Authors Christoph Angermann, Johannes Bereiter Payr, Kerstin Stock, Markus Haltmeier, Gerald Degenhart
医学图像处理被认为是基于深度学习的模型最具潜力的领域。然而，特别是在医学领域，数据可用性和隐私问题正在阻碍研究进展，从而阻碍临床常规的快速实施。合成数据的生成不仅可以确保隐私，还可以通过文本绘制具有特定特征的新患者，从而能够更大规模地开发数据驱动模型。这项工作表明，三维生成对抗网络 GAN 可以被有效地训练，以生成具有基于精细体素的架构的高分辨率医疗体。此外，GAN 反演已成功实现三维设置，并用于模型可解释性和图像变形、属性编辑和风格混合等应用的广泛研究。

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise
Authors Zhenkai Zhang, Krista A. Ehinger, Tom Drummond
本文介绍了旨在提高通过逆扩散过程生成图像的速度和质量的两个关键贡献。第一个贡献涉及根据图像和噪声之间的四分之一圆弧上的角度重新参数化扩散过程，特别是设置传统的显示样式 sqrt bar alpha cos eta 。这种重新参数化消除了两个奇点，并允许将扩散演化表达为性能良好的常微分方程 ODE。反过来，这使得高阶 ODE 求解器（例如 Runge Kutta 方法）能够得到有效使用。第二个贡献是使用我们的网络直接估计图像 mathbf x 0 和噪声 mathbf epsilon ，这使得逆扩散步骤中更新步骤的计算更加稳定，因为图像和噪声的准确估计在不同阶段至关重要的过程。加上这些变化，我们的模型实现了更快的生成，能够更快地收敛到高质量图像，并且生成的图像质量更高，如 Frechet Inception Distance FID 、空间 Frechet Inception Distance sFID 、精度、

CosmosDSR -- a methodology for automated detection and tracking of orbital debris using the Unscented Kalman Filter
Authors Daniel S. Roll, Zeyneb Kurt, Wai Lok Woo
凯斯勒综合症是指频繁太空活动导致的太空碎片不断增加，威胁着未来的太空探索。解决这个问题至关重要。多种 AI 模型（包括卷积神经网络 CNN 、内核主成分分析 KPCA 和模型无关元学习 MAML ）已使用各种数据类型进行了评估。早期的研究强调了 YOLO 目标检测器和线性卡尔曼滤波器的组合，用于目标检测和跟踪。在此基础上，我们的项目引入了 CosmosDSR，这是一种将 YOLOv3 与无迹卡尔曼滤波器相结合的新颖方法，与线性卡尔曼滤波器相比，用于跟踪连续图像中的卫星。使用卢森堡大学的 SPARK 数据集进行训练和测试，YOLOv3 精确检测并分类了所有卫星类别 mAP 97.18 、 F1 0.95 ，误差很少 TP 4163 、 FP 209 、 FN 237 。 CosmosDSR 和 LKF 均准确跟踪卫星 UKF MSE 2.83 RMSE 1.66，LKF MSE 2.84 RMSE 1.66 。尽管存在阶级不平衡和缺乏真实图像的担忧，但该模型还是显示出了前景。未来的工作应该解决这些限制，增加跟踪样本大小并改进指标。

Enhancing sea ice segmentation in Sentinel-1 images with atrous convolutions
Authors Rafael Pires de Lima, Behzad Vahedi, Nick Hughes, Andrew P. Barrett, Walter Meier, Morteza Karimzadeh
由于遥感数据量不断增长以及安全海洋导航所需的低延迟，正在开发机器学习 ML 算法来加速海冰图表生成，目前这是一项手动解释任务。然而，免费提供的 Sentinel 1 合成孔径雷达 SAR 图像的信噪比较低、冰类型反向散射信号的模糊性以及开源高分辨率标记数据的稀缺使得自动化海冰测绘面临挑战。我们使用 Extreme Earth 版本 2（为 ML 训练和评估生成的高分辨率基准数据集）来研究 ML 在自动海冰绘图中的有效性。我们的定制管道结合了 ResNet 和 Atrous Spatial Pyramid Pooling，用于 SAR 图像分割。我们研究了模型在分割框架中对海冰和开放水域进行二元分类以及对五种海冰类型进行多类分割的性能。对于二元冰水分类，使用我们最大的训练集训练的模型在 1 月和 7 月的测试场景中的加权 F1 分数均大于 0.95。具体而言，加权 F1 得分中位数为 0.98，表明这两个月的表现都很高。相比之下，竞争基线 U Net 的 7 月份加权平均 F1 分数范围为 0.92 至 0.94（中位数 0.93），1 月份为 0.97 至 0.98（中位数 0.97）。多类冰类型分类更具挑战性，尽管我们的模型与基线 U Net 相比在加权 F1 平均值上实现了 2 倍的改进，但测试加权 F1 通常在 0.6 到 0.80 之间。

StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling
Authors Juyoung Yun
在快速发展的深度学习优化领域，本文推出了 StochGradAdam 优化器，这是备受推崇的 Adam 算法的一种新颖改编。 StochGradAdam 的核心是其梯度采样技术。该方法不仅确保稳定的收敛，而且还利用选择性梯度考虑的优势，通过潜在地减轻噪声或异常数据的影响来促进稳健的训练，并增强对损失景观的探索以获得更可靠的收敛。在图像分类和分割任务中，StochGradAdam 与传统的 Adam 优化器相比都表现出了优越的性能。通过在每次迭代时明智地对梯度子集进行采样，优化器可以针对管理复杂的模型进行优化。

The Significance of Machine Learning in Clinical Disease Diagnosis: A Review
Authors S M Atikur Rahman, Sifat Ibtisum, Ehsan Bazgir, Tumpa Barai
鉴于各种疾病机制的复杂性和不同的患者症状，全球对有效疾病诊断的需求仍然很大。为了应对这些挑战，研究人员、医生和患者正在转向机器学习 ML（一门人工智能 AI 学科）来开发解决方案。通过利用复杂的机器学习和人工智能方法，医疗保健利益相关者获得了增强的诊断和治疗能力。然而，针对提高准确性和计算效率的机器学习算法的研究却很少。这项研究调查了机器学习算法改善时间序列医疗保健指标中心率数据传输的能力，特别关注优化准确性和效率。通过探索医疗保健应用中使用的各种 ML 算法，该综述介绍了基于 ML 的疾病诊断 MLBDD 的最新趋势和方法。考虑的因素包括所使用的算法、目标疾病类型、所使用的数据类型、应用程序和评估指标。本综述旨在阐明机器学习在医疗保健领域的前景，特别是在疾病诊断方面。

Improving Performance in Colorectal Cancer Histology Decomposition using Deep and Ensemble Machine Learning
Authors Fabi Prezja, Leevi Annala, Sampsa Kiiskinen, Suvi Lahtinen, Timo Ojala, Pekka Ruusuvuori, Teijo Kuopio
在常规结直肠癌治疗中，通常使用用苏木精和伊红染色的组织学样本。尽管如此，它们为患者分层和治疗选择定义客观生物标志物的潜力仍在探索中。目前的黄金标准依赖于昂贵且耗时的基因测试。然而，最近的研究强调了卷积神经网络 CNN 在促进从这些容易获得的图像中提取临床相关生物标记物方面的潜力。这些基于 CNN 的生物标志物可以与黄金标准相媲美地预测患者结果，并具有速度、自动化和最低成本的额外优势。基于 CNN 的生物标志物的预测潜力从根本上依赖于卷积神经网络 CNN 从整个载玻片显微镜图像中准确分类不同组织类型的能力。因此，提高组织类别分解的准确性对于放大基于成像的生物标志物的预后潜力至关重要。这项研究引入了一种混合深度和集成机器学习模型，该模型超越了该分类任务的所有先前解决方案。我们的模型在外部测试集上达到了 96.74 的准确率，在内部测试集上达到了 99.89 的准确率。

SonoSAM -- Segment Anything on Ultrasound Images
Authors Hariharan Ravishankar, Rohan Patil, Vikram Melapudi, Parminder Bhatia, Kass Hout Taha, Pavan Annangi
在本文中，我们提出了 SonoSAM 一种用于分割超声图像上感兴趣对象的快速基础模型。 SonoSAM 专门针对来自大约 20 万个超声图像掩模对的丰富多样的对象集进行了微调，在 8 个看不见的超声数据集上展示了最先进的性能，在所有感兴趣的指标上都明显优于竞争方法。 SonoSAM 在平均 2 6 次点击内几乎所有测试数据集上的平均骰子相似度得分超过 90，使其成为注释超声图像的宝贵工具。我们还将 SonoSAM 扩展到 3 D 2 D t 应用，并展示了卓越的性能，使其成为从超声电影循环生成密集注释的宝贵工具。此外，为了提高 SonoSAM 的实用性，我们提出了一个两步微调过程，然后将知识蒸馏到更小的足迹模型，而不影响性能。

General Point Model with Autoencoding and Autoregressive
Authors Zhe Li, Zhangyang Gao, Cheng Tan, Stan Z. Li, Laurence T. Yang
大语言模型的预训练架构涵盖多种类型，包括自编码模型、自回归模型和编码器解码器模型。我们假设任何模态都可以从大型语言模型中受益，只要它经过矢量量化成为离散标记。受 GLM 的启发，我们提出了一种通用点模型 GPM，它将自编码和自回归任务无缝集成在点云转换器中。该模型用途广泛，允许对下游点云表示任务以及无条件和条件生成任务进行微调。 GPM 通过各种形式的掩模填充任务增强自动编码中的掩模预测，从而提高点云理解的性能。此外，GPM 在无条件点云生成任务中表现出极具竞争力的结果，甚至通过修改输入的条件信息来展示条件生成任务的潜力。与 Point BERT、MaskPoint 和 PointMAE 等模型相比，我们的 GPM 在点云理解任务中实现了卓越的性能。

Deep Learning Models for Classification of COVID-19 Cases by Medical Images
Authors Amir Ali
近年来，利用胸部计算机断层扫描 CT 图像检测冠状病毒感染引起了广泛关注，因为它们能够揭示受影响个体的双侧变化。然而，从医学图像中对患者进行分类是一个巨大的挑战，特别是在识别这种双边变化方面。为了应对这一挑战，我们的研究利用深度学习模型的力量对感染患者进行精确分类。我们的研究涉及基于深度迁移学习的分类模型（包括 DenseNet201、GoogleNet 和 AlexNet）与精心选择的监督学习模型的比较分析。此外，我们的工作还包括 Covid 19 分类，其中涉及识别和区分表现出 Covid 19 感染迹象的医学图像，例如 X 射线和心电图。这种综合方法确保我们的模型能够处理各种医学图像类型，并有效识别表明 Covid 19 的特征模式。通过进行细致的研究并采用先进的深度学习技术，我们在提高 Covid 19 的准确性和速度方面取得了重大进展19 诊断。

A weighted-variance variational autoencoder model for speech enhancement
Authors Ali Golmakani MULTISPEECH , Mostafa Sadeghi MULTISPEECH , Xavier Alameda Pineda ROBOTLEARN , Romain Serizel MULTISPEECH
我们基于变分自动编码器来解决语音增强问题，其中涉及学习时频 TF 域中的语音先验分布。生成模型通常假设零均值复值高斯分布，其中语音信息作为潜在变量的函数被编码在方差中。与这种常用的方法相反，我们提出了一种加权方差生成模型，其中每个频谱图时间帧在参数学习中的贡献被加权。我们对权重施加伽马先验分布，这将有效地导致语音生成建模中的学生分布而不是高斯分布。我们基于所提出的生成模型开发有效的训练和语音增强算法。

Improving Few-Shot Learning through Multi-task Representation Learning Theory
Authors Quentin Bouniot, Ievgen Redko, Romaric Audigier, Ang lique Loesch, Amaury Habrard
在本文中，我们考虑多任务表示 MTR 学习的框架，其目标是使用源任务来学习表示，以降低解决目标任务的样本复杂性。我们首先回顾 MTR 理论的最新进展，并表明在这个框架内进行分析时，它们可以为流行的元学习算法提供新颖的见解。特别是，我们强调了实践中基于梯度和基于度量的算法之间的根本区别，并提出了理论分析来解释它。最后，我们利用得出的见解，通过基于新光谱的正则化项来提高元学习方法的性能，并通过对少量镜头分类基准的实验研究来确认其效率。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com