【AI视野·今日CV 计算机视觉论文速览第255期】Wed, 27 Sep 2023

本文链接：https://blog.csdn.net/u014636245/article/details/133358246

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 27 Sep 2023 (showing first 100 of 103 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Generating Visual Scenes from Touch
Authors Fengyu Yang, Jiacheng Zhang, Andrew Owens
一项新兴的工作试图通过触摸产生可信的图像。然而，现有方法仅解决视觉触觉合成问题的狭窄方面，并且明显落后于其他领域的跨模态合成方法的质量。我们利用潜在扩散的最新进展，创建了一个从触觉信号合成图像的模型，反之亦然，并将其应用于许多视觉触觉合成任务。使用这个模型，我们在触觉驱动的风格化问题上的表现明显优于之前的工作，即操纵图像以匹配触摸信号，并且我们是第一个成功地通过触摸生成图像而无需额外的场景信息源的人。

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition
Authors Pan Zhang, Xiaoyi Dong Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang
我们提出了 InternLM XComposer，这是一种视觉语言大型模型，可以实现高级图像文本理解和合成。我们模型的创新性通过三个吸引人的属性得到了凸显。 1 交错文本图像合成 InternLM XComposer 可以毫不费力地生成连贯且上下文相关的文章，无缝集成图像，从而提供更具吸引力和身临其境的阅读体验。只需提供标题，我们的系统就会生成相应的稿件。它可以智能地识别文本中图像可以增强内容的区域，并自动插入最合适的视觉候选项。 2 丰富的多语言知识的理解通过对广泛的多模态多语言概念和精心设计的策略进行训练，增强文本图像理解能力，从而对视觉内容产生深刻的理解。 3 最先进的性能我们的模型在视觉语言基础模型的各种主流基准测试中始终达到最先进的结果，包括 MME Benchmark、MMBench、MMBench CN、Seed Bench 和 CCBench 中国文化基准。总的来说，InternLM XComposer 无缝融合了高级文本图像理解和合成，彻底改变了视觉语言交互并提供了新的见解和机会。

Doduo: Learning Dense Visual Correspondence from Unsupervised Semantic-Aware Flow
Authors Zhenyu Jiang, Hanwen Jiang, Yuke Zhu
密集的视觉对应在机器人感知中起着至关重要的作用。这项工作的重点是在捕捉经历重大变换的动态场景的一对图像之间建立密集的对应关系。我们引入 Doduo 来从野外图像和视频中学习一般的密集视觉对应，而无需地面实况监督。给定一对图像，它估计密集流场，该密集流场编码一个图像中每个像素相对于另一图像中对应像素的位移。 Doduo 使用基于流的扭曲来获取训练的监控信号。 Doduo 将语义先验与自监督流训练相结合，生成准确的密集对应，对场景的动态变化具有鲁棒性。 Doduo 在野外视频数据集上进行训练，证明了在点级对应估计方面优于现有自监督对应学习基线的性能。我们还将 Doduo 应用于关节估计和零射击目标条件操作，强调了其在机器人技术中的实际应用。

DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge Distillation
Authors Zeyu Wang, Dingwen Li, Chenxu Luo, Cihang Xie, Xiaodong Yang
基于从多摄像头鸟瞰 BEV 中学习到的表示的 3D 感知正在成为趋势，因为摄像头对于自动驾驶行业的大规模生产来说具有成本效益。然而，多摄像头 BEV 和基于 LiDAR 的 3D 物体检测之间存在明显的性能差距。一个关键原因是 LiDAR 可以捕获准确的深度和其他几何测量结果，而仅从图像输入推断此类 3D 信息是非常具有挑战性的。在这项工作中，我们建议通过训练基于多摄像头 BEV 的学生检测器模仿训练有素的基于 LiDAR 的教师检测器的特征来增强其表示学习。我们提出了有效的平衡策略，以强制学生专注于从老师那里学习关键特征，并将知识转移到具有时间融合的多尺度层。我们对多摄像头纯电动汽车的多个代表性型号进行了广泛的评估。

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
Authors Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
这项工作旨在利用预先训练的文本到图像 T2I 模型作为基础，学习高质量的文本到视频 T2V 生成模型。同时完成视觉逼真和时间连贯视频的合成，同时保留预先训练的 T2I 模型强大的创意生成性质，这是一项非常理想但具有挑战性的任务。为此，我们提出了 LaVie，一种集成视频生成框架，可在级联视频潜在扩散模型上运行，包括基本 T2V 模型、时间插值模型和视频超分辨率模型。我们的主要见解有两个方面 1 我们揭示了简单的时间自注意力的结合，再加上旋转位置编码，可以充分捕获视频数据中固有的时间相关性。 2 此外，我们还验证了联合图像视频微调过程在产生高质量和创造性成果方面发挥着关键作用。为了提高 LaVie 的性能，我们贡献了一个名为 Vimeo25M 的全面且多样化的视频数据集，由 2500 万个文本视频对组成，优先考虑质量、多样性和审美吸引力。大量实验表明 LaVie 在数量和质量上均达到了最先进的性能。

Case Study: Ensemble Decision-Based Annotation of Unconstrained Real Estate Images
Authors Miroslav Despotovic, Zedong Zhang, Eric Stumpe, Matthias Zeppelzauer
我们描述了使用基于简单迭代规则的半监督学习来注释房地产图像的概念证明。

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
Authors Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
尽管最近的文本到视频 T2V 生成方法已经取得了显着的进步，但这些作品大多数都专注于生成具有单一背景的单个事件的短视频剪辑，即单场景视频。与此同时，最近的大型语言模型法学硕士已经展示了它们生成布局和程序来控制下游视觉模块（例如图像生成模型）的能力。这就提出了一个重要的问题，我们是否可以利用这些 LLM 中嵌入的知识来生成时间一致的长视频。在本文中，我们提出了 VideoDirectorGPT，这是一种用于一致的多场景视频生成的新颖框架，它使用 LLM 的知识进行视频内容规划和接地视频一代。具体来说，给定一个文本提示，我们首先要求视频规划器 LLM GPT 4 将其扩展为视频规划，其中涉及生成场景描述、具有各自布局的实体、每个场景的背景以及场景的一致性分组。实体和背景。接下来，在视频规划器的输出的指导下，我们的视频生成器 Layout2Vid 可以对空间布局进行显式控制，并且可以保持跨场景的实体背景的时间一致性，同时仅使用图像级注释进行训练。我们的实验表明，VideoDirectorGPT 框架极大地改进了单场景和多场景视频生成中的布局和运动控制，并且可以生成跨场景视觉一致性的多场景视频，同时在开放域单场景 T2V 生成中实现与 SOTA 的竞争性能。我们还证明我们的框架可以动态控制布局指导的强度，并且还可以使用用户提供的图像生成视频。

Video-adverb retrieval with compositional adverb-action embeddings
Authors Thomas Hummel, Otniel Bogdan Mercea, A. Sophia Koepke, Zeynep Akata
检索描述视频中动作的副词是实现细粒度视频理解的关键一步。我们提出了一个用于视频到副词检索的框架，反之亦然，该框架将视频嵌入与其匹配的组合副词动作文本嵌入在联合嵌入空间中对齐。组合副词动作文本嵌入是使用残差门控机制以及由三元组损失和回归目标组成的新颖训练目标来学习的。我们的方法在最近五个视频副词检索基准上实现了最先进的性能。此外，我们引入数据集分割来对 MSR VTT Adverbs 和 ActivityNet Adverbs 数据集子集上未见过的副词动作组合的视频副词检索进行基准测试。我们提出的框架在从视频中检索副词以获取未见过的副词动作组合的泛化任务方面优于所有先前的工作。

The Surveillance AI Pipeline
Authors Pratyusha Ria Kalluri, William Agnew, Myra Cheng, Kentrell Owens, Luca Soldaini, Abeba Birhane
越来越多的声音认为人工智能研究，特别是计算机视觉，与大规模监控密切相关。然而，从计算机视觉研究到监控的直接路径仍然模糊且难以评估。这项研究揭示了监控人工智能管道。我们获得了三十年的计算机视觉研究论文和下游专利超过 20,000 份文档，并提供了丰富的定性和定量分析。该分析揭示了监控人工智能管道的性质和范围、其制度根源和演变以及持续的混淆模式。我们首先对计算机视觉论文和下游专利进行深入的内容分析，识别和量化关键特征以及许多经常巧妙表达的监视形式。在此分析的基础上，我们提出了监视人工智能的拓扑结构，该拓扑结构描述了人类数据的普遍目标、数据传输实践和机构数据使用。我们发现了计算机视觉和监控之间密切联系的明显证据。

RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical Flow and Scene Flow Estimation
Authors Zhexiong Wan, Yuxin Mao, Jing Zhang, Yuchao Dai
最近，RGB图像和点云融合方法被提出来联合估计2D光流和3D场景流。然而，由于传统的RGB相机和激光雷达传感器都采用基于帧的数据采集机制，其性能受到固定的低采样率的限制，尤其是在高动态场景中。相比之下，事件相机可以以非常高的时间分辨率异步捕获强度变化，提供观察场景的补充动态信息。在本文中，我们将 RGB 图像、点云和事件与我们提出的多阶段多模态融合模型 RPEFlow 结合起来，用于联合光流和场景流估计。首先，我们提出了一个具有交叉注意机制的注意融合模块，以分别隐式探索 2D 和 3D 分支的内部交叉模态相关性。其次，我们引入互信息正则化项来显式建模三种模态的互补信息，以实现有效的多模态特征学习。我们还贡献了一个新的综合数据集来倡导进一步的研究。对合成数据集和真实数据集的实验表明，我们的模型大幅优于现有技术。

Nuclear Morphometry using a Deep Learning-based Algorithm has Prognostic Relevance for Canine Cutaneous Mast Cell Tumors
Authors Andreas Haghofer, Eda Parlak, Alexander Bartel, Taryn A. Donovan, Charles Antoine Assenmacher, Pompei Bolfa, Michael J. Dark, Andrea Fuchs Baumgartinger, Andrea Klang, Kathrin J ger, Robert Klopfleisch, Sophie Merz, Barbara Richter, F. Yvonne Schulman, Jonathan Ganz, Josef Scharinger, Marc Aubreville, Stephan M. Winkler, Matti Kiupel, Christof A. Bertram
核大小和形状的变化是许多肿瘤类型恶性肿瘤的重要标准，然而病理学家的分类估计重复性较差。核特征形态测定法的测量可以提高重现性，但手动方法非常耗时。在这项研究中，我们使用基于深度学习的算法对 96 例犬皮肤肥大细胞肿瘤进行全自动形态测量评估，并提供有关患者生存的信息。将算法形态测定法与 11 名病理学家的核肥大估计值、9 名病理学家对 12 个细胞的手动核形态测定法进行比较，并以有丝分裂计数作为基准。自动形态测量的预后价值较高，肿瘤特异性生存的 ROC 曲线下面积为 0.943 95 CI 0.889 0.996，核区标准差 SD 高于所有病理学家手动形态测量的总和 0.868、95 CI 0.737 0.991，有丝分裂计数 0.885，95 CI 0.765 1.00。在建议的阈值下，核区域 geq 9.0 mu m 2 的算法形态测量 SD 的风险比为 18.3 95 CI 5.0 67.1，核区域 geq 10.9 mu m 2 的手动形态测量 SD 的风险比为 9.0 95 CI 6.0 13.4，核肿大估计为 7.6 95 CI 5.7±10.1，有丝分裂计数 30.5±95 CI 7.8±118.0。核肿大估计值的评估者间再现性为公平的 kappa 0.226，各个病理学家的敏感性特异性值差异很大。核区手动形态测定SD的重复性良好，ICC为0.654。

IFT: Image Fusion Transformer for Ghost-free High Dynamic Range Imaging
Authors Hailing Wang, Wei Li, Yuanyuan Xi, Jie Hu, Hanting Chen, Longyu Li, Yunhe Wang
多帧高动态范围 HDR 成像旨在从内容互补但空间错位的低动态范围 LDR 图像中重建具有逼真细节的无重影图像。现有的 HDR 算法很容易产生重影伪影，因为它们的方法无法捕获动态场景中运动较大的 LDR 帧之间的长距离依赖关系。为了解决这个问题，我们提出了一种新颖的图像融合变压器，称为 IFT，它提供了一个快速全局补丁搜索 FGPS 模块，然后是一个用于无重影 HDR 成像的自交叉融合模块 SCF。 FGPS从与参考帧的每个补丁具有最接近依赖性的支持帧中搜索补丁，以进行长距离依赖性建模，而SCF以输入分辨率的线性复杂度对FGPS获得的补丁进行帧内和帧间特征融合。通过匹配帧之间的相似块，可以对齐动态场景中运动范围较大的对象，从而可以有效减轻伪影的产生。此外，所提出的 FGPS 和 SCF 可以作为高效的插件模块集成到各种深度 HDR 方法中。

Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex
Authors Ruixing Liang, Xiangyu Zhang, Qiong Li, Lai Wei, Hexin Liu, Avisha Kumar, Kelley M. Kempski Leadingham, Joshua Punnoose, Leibny Paola Garcia, Amir Manbachi
尽管人工智能的重大进步促进了各个领域的进步，但其在理解视觉感知方面的全部潜力仍未得到充分开发。我们提出了一种名为 VISION 的人工神经网络，它是神经活动成像输出视觉接口系统的缩写，旨在模仿人脑并展示它如何促进神经科学研究。使用视觉和上下文输入，这种多模态模型可以预测大脑对自然图像的功能磁共振成像 fMRI 扫描响应。 VISION 成功预测人类血流动力学反应，作为视觉输入的 fMRI 体素值，其准确度比最先进的性能高出 45 。我们进一步探索经过训练的网络，以揭示不同视觉区域的表征偏差，生成可通过实验测试的假设，并制定可解释的指标，将这些假设与皮质功能相关联。通过模型和评估指标，可以减少与视觉皮层设计和实施功能分析相关的成本和时间负担。

Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features
Authors Hila Levi, Guy Heller, Dan Levi, Ethan Fetaya
以开放词汇对象为中心的图像检索的任务涉及检索包含由开放集文本查询描述的指定感兴趣对象的图像。随着处理大型图像数据集成为标准，有效解决此任务已具有重要的实际意义。应用程序包括在训练期间使用即席查询和困难示例挖掘对检索到的图像进行有针对性的性能分析。基于对比的开放词汇系统的最新进展取得了显着的突破，促进了大规模开放词汇图像检索。然而，这些方法对每个图像使用单个全局嵌入，从而限制了系统检索包含相对较小对象实例的图像的能力。

An Ensemble Model for Distorted Images in Real Scenarios
Authors Boyuan Ji, Jianchang Huang, Wenzhuo Huang, Shuke He
图像采集条件和环境可以显着影响计算机视觉中的高级任务，并且在无失真数据集上进行训练时，大多数计算机视觉算法的性能将受到限制。即使传感器和深度学习方法等硬件得到更新，面对现实应用中的多变条件，它仍然无法工作。在本文中，我们应用对象检测器 YOLOv7 来检测数据集 CDCOCO 中的扭曲图像。通过精心设计的优化，包括数据增强、检测框集成、降噪器集成、超分辨率模型和迁移学习，我们的模型在 CDCOCO 测试集上取得了优异的性能。

IAIFNet: An Illumination-Aware Infrared and Visible Image Fusion Network
Authors Qiao Yang, Yu Zhang, Jian Zhang, Zijing Zhao, Shunli Zhang, Jinqiao Wang, Junzhe Chen
红外和可见光图像融合IVIF用于生成具有两种图像综合特征的融合图像，这有利于下游视觉任务。然而，目前的方法很少考虑弱光环境下的光照条件，并且融合图像中的目标往往不突出。为了解决上述问题，我们提出了一种照明感知红外和可见光图像融合网络，命名为 IAIFNet。在我们的框架中，照明增强网络首先估计输入图像的入射照明图。随后，借助所提出的自适应差分融合模块 ADFM 和显着目标感知模块 STAM ，图像融合网络有效地将照明增强红外和可见光图像的显着特征集成为高视觉质量的融合图像。

Robust Sequential DeepFake Detection
Authors Rui Shao, Tianxing Wu, Ziwei Liu
由于当今的面部操纵技术可以很容易地生成逼真的面部，因此这些技术的潜在恶意滥用引起了人们的极大关注。因此提出了许多深度伪造检测方法。然而，现有方法仅专注于检测一步面部操纵。随着易于访问的面部编辑应用程序的出现，人们可以按顺序使用多步骤操作轻松地操纵面部组件。这种新的威胁要求我们检测一系列面部操作，这对于检测深度伪造媒体和随后恢复原始面部至关重要。受这一观察的启发，我们强调了这一需求并提出了一个新的研究问题，称为检测顺序 DeepFake Manipulation Seq DeepFake 。与现有的仅需要二进制标签预测的 Deepfake 检测任务不同，检测 Seq DeepFake 操作需要正确预测面部操作操作的顺序向量。为了支持大规模调查，我们构建了第一个 Seq DeepFake 数据集，其中面部图像通过顺序面部操作向量的相应注释进行顺序操作。基于这个新数据集，我们将检测 Seq DeepFake 操作作为特定图像进行序列任务，并提出了一个简洁而有效的 Seq DeepFake Transformer SeqFakeFormer 。为了更好地反映现实世界的 Deepfake 数据分布，我们进一步对原始 Seq DeepFake 数据集应用各种扰动，并使用扰动 Seq DeepFake P 构建更具挑战性的 Sequential DeepFake 数据集。

MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection
Authors Kemal Oksuz, Selim Kuzucu, Tom Joy, Puneet K. Dokania
我们提出了一种极其简单且高效的方法来忠实地组合不同的目标检测器，以获得专家 MoE 的混合，该混合专家的准确度优于混合物中的各个专家。我们发现，以类似于众所周知的深度集成 DE 的方式天真地组合这些专家，并不会产生有效的 MoE。我们认为不同检测器的置信度分布之间的不兼容性是此类失败案例的主要原因。因此，为了构建 MoE，我们的建议是首先根据目标校准函数校准每个单独的探测器。然后，过滤并细化来自混合物中不同检测器的所有预测。我们将这种方法称为 MoCaE，并通过对象检测、实例分割和旋转对象检测任务的大量实验证明了其有效性。具体来说，MoCaE 将 COCO 测试开发上的三个强大的目标检测器提高了 2.4 mathrm AP，达到 59.0 mathrm AP；ii 在具有挑战性的长尾 LVIS 数据集上的实例分割方法提高了 2.3 mathrm AP；iii 将所有现有的旋转目标检测器提高了 82.62 mathrm AP 50。在 DOTA 数据集上，建立了一个新的最先进的 SOTA 。

Improving Unsupervised Visual Program Inference with Code Rewriting Families
Authors Aditya Ganeshan, R. Kenny Jones, Daniel Ritchie
程序提供紧凑性和结构，使它们成为视觉数据的有吸引力的表示。我们探索如何使用代码重写来改进从视觉数据推断程序的系统。我们首先提出稀疏间歇重写注入 SIRI，这是一个用于无监督引导学习的框架。 SIRI 在训练程序数据集上稀疏地应用代码重写操作，将改进的程序注入回训练集中。我们设计了一系列用于可视化编程领域参数优化、代码修剪和代码移植的重写器。对于 2D 和 3D 的三种形状编程语言，我们表明，与不使用重写器或简单使用重写器的引导学习方法相比，将 SIRI 与我们的重写器系列结合使用可以提高性能、更好的重建和更快的收敛速度。最后，我们证明我们的重写器系列可以在测试时有效地使用，以提高 SIRI 预测的输出。

A novel approach for holographic 3D content generation without depth map
Authors Hakdong Kim, Minkyu Jee, Yurim Lee, Kyudam Choi, MinSung Yoon, Cheongwon Kim
在准备观察全息 3D 内容时，使用快速傅立叶变换 FFT 算法时，需要为每个场景获取一组 RGB 颜色和深度图图像，以生成计算机生成的全息图 CGH。然而，在现实世界中，这些成对的 RGB 颜色和深度图图像格式并不总是完全可用。我们提出了一种基于深度学习的方法，仅使用给定的 RGB 图像来合成体积数字全息图，这样我们就可以克服部分提供 RGB 颜色和深度图图像的环境。该方法仅使用 RGB 图像的输入来估计其深度图，然后顺序生成其 CGH。

GridFormer: Towards Accurate Table Structure Recognition via Grid Prediction
Authors Pengyuan Lyu, Weihong Ma, Hongyi Wang, Yuechen Yu, Chengquan Zhang, Kun Yao, Yang Xue, Jingdong Wang
所有表格都可以表示为网格。基于这一观察，我们提出了 GridFormer，这是一种通过预测网格的顶点和边来解释无约束表结构的新方法。首先，我们提出了 MXN 网格形式的灵活表格表示。在这种表示中，网格的顶点和边存储表的定位和邻接信息。然后，我们引入 DETR 风格的表结构识别器来有效地预测单次网格的多目标信息。具体来说，给定一组学习的行和列查询，识别器直接输出相应行和列的顶点和边信息。

Multi-Source Domain Adaptation for Object Detection with Prototype-based Mean-teacher
Authors Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger
使视觉对象检测器适应操作目标域是一项具有挑战性的任务，通常使用无监督域适应 UDA 方法来实现。当标记数据集来自多个源域时，将它们视为单独的域并执行多源域适应 MSDA 可以提高混合这些源域并执行 UDA 的准确性和鲁棒性，正如 MSDA 最近的研究所观察到的那样。现有的 MSDA 方法学习每个源域的域不变和域特定参数以进行适应。然而，与单源 UDA 方法不同，学习特定于域的参数使它们与所使用的源域的数量成比例地显着增长。本文提出了一种名为 Prototype based Mean Teacher PMT 的新型 MSDA 方法，该方法使用类原型而不是特定于域的子网来保存特定于域的信息。这些原型是使用对比损失来学习的，跨领域对齐相同的类别并将不同的类别分开很远。由于使用原型，我们方法的参数大小不会随着源域数量的增加而显着增加，从而减少内存问题和可能的过度拟合。

FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing
Authors Songyan Chen, Jiancheng Huang
文本条件图像编辑是最近出现的一项非常有用的任务，具有不可估量的潜力。目前大多数真实图像编辑方法首先需要完成图像的重建，然后在重建的基础上通过各种方法进行编辑。大多数方法使用 DDIM Inversion 进行重建，但是 DDIM Inversion 通常无法保证重建性能，即无法产生保留原始图像内容的结果。为了解决重建失败的问题，我们提出了 FEC，它由三种采样方法组成，每种方法针对不同的编辑类型和设置而设计。我们的三种 FEC 方法在图像编辑任务 1 中实现了两个重要目标，确保成功重建，即采样以获得保留原始真实图像的纹理和特征的生成结果。 2 这些采样方法可以与多种编辑方法配对，极大地提高这些编辑方法的性能，以完成各种编辑任务。此外，我们的采样方法都不需要对扩散模型进行微调或对大规模数据集进行耗时的训练。

Addressing Data Misalignment in Image-LiDAR Fusion on Point Cloud Segmentation
Authors Wei Jong Yang, Guan Cheng Lee
随着先进的多传感器融合模型的出现，自动驾驶方面的感知任务性能显着增强。尽管取得了这些进步，挑战仍然存在，特别是在摄像机和激光雷达传感器的数据融合方面。一个关键问题是来自这些不同传感器的数据的准确对齐。我们的观察表明，LiDAR 点的投影位置通常在相应图像上错位。此外，融合模型似乎很难准确分割这些未对齐的点。

Noise-Tolerant Unsupervised Adapter for Vision-Language Models
Authors Eman Ali, Dayan Guan, Shijian Lu, Abdulmotaleb Elsaddik
大规模视觉语言模型的最新进展在各种零样本图像分类任务中取得了非常令人印象深刻的性能。虽然之前的研究通过引入少量镜头标记的目标样本已经证明了显着的改进，但它们仍然需要对目标样本进行标记，这极大地降低了它们在处理各种视觉识别任务时的可扩展性。我们设计了 NtUA，一种耐噪声的无监督适配器，它允许使用少量未标记的目标样本来学习高级目标模型。 NtUA 作为键值缓存，将少数镜头未标记目标样本的视觉特征和预测伪标签制定为键值对。它由两种互补的设计组成。第一个是自适应缓存形成，它通过根据预测置信度对键值对进行加权来对抗伪标签噪声。第二个是伪标签校正，它通过利用大规模视觉语言模型的知识蒸馏来校正两个值对，即伪标签和缓存权重。

PHRIT: Parametric Hand Representation with Implicit Template
Authors Zhisheng Huang, Yujin Chen, Di Kang, Jinlu Zhang, Zhigang Tu
我们提出了 PHRIT，这是一种使用隐式模板进行参数化手部网格建模的新方法，结合了参数化网格和隐式表示的优点。我们的方法使用带符号距离场 SDF 和基于零件的形状先验来表示可变形的手部形状，并利用变形场来执行变形。该模型通过以无限分辨率变形规范模板来提供高效的高保真手部重建。此外，它是完全可微的，并且可以很容易地用于手工建模，因为它可以由骨架和形状潜在代码驱动。

Face Cartoonisation For Various Poses Using StyleGAN
Authors Kushal Jain, Ankith Varun J, Anoop Namboodiri
本文提出了一种创新方法来实现面部卡通化，同时保留原始身份并适应各种姿势。与该领域之前依赖条件 GAN 的方法不同，这带来了与数据集要求和姿势训练相关的挑战，我们的方法利用了 StyleGAN 的表达潜在空间。我们通过引入一个编码器来实现这一目标，该编码器从图像中捕获姿势和身份信息，并在 StyleGAN 潜在空间中生成相应的嵌入。随后通过预先训练的生成器传递此嵌入，我们获得了所需的卡通化输出。虽然许多其他基于 StyleGAN 的方法需要专用且经过微调的 StyleGAN 模型，但我们的方法通过利用经过训练的 StyleGAN 来生成逼真的面部图像，从而脱颖而出。

Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning
Authors Jizhe Zhou, Xiaochen Ma, Xia Du, Ahmed Y.Alhammadi, Wentao Feng
深度图像操作定位 IML 模型面临训练数据不足的问题，因此严重依赖预训练。我们认为对比学习更适合解决 IML 的数据不足问题。制定相互排斥的积极和消极是对比学习的先决条件。然而，当在 IML 中采用对比学习时，我们会遇到三类图像补丁：篡改的图像补丁、真实的图像补丁和轮廓补丁。被篡改的补丁和真实的补丁自然是互斥的，但是同时包含被篡改和真实像素的轮廓补丁对它们来说是非互斥的。简单地放弃这些轮廓补丁会导致性能的急剧下降，因为轮廓补丁对于学习结果至关重要。因此，我们提出了非互斥对比学习 NCL 框架，以将传统对比学习从上述困境中拯救出来。在NCL中，为了应对非互斥性，我们首先建立一个具有双分支的枢轴结构，以便在训练时不断地在正负之间切换轮廓补丁的角色。然后，我们设计了一个枢轴一致损失来避免角色切换过程引起的空间损坏。通过这种方式，NCL既继承了自监督的优点来解决数据不足的问题，又保留了较高的操作定位精度。大量的实验验证了我们的 NCL 在所有五个基准上都实现了最先进的性能，无需任何预训练，并且在未见过的现实生活样本上更加稳健。

FDLS: A Deep Learning Approach to Production Quality, Controllable, and Retargetable Facial Performances
Authors Wan Duo Kurt Ma, Muhammad Ghifary, J.P. Lewis, Byungkuk Choi, Haekwang Eom
视觉效果通常需要创建逼真的合成人类，以及将演员的表演重新定位为外星人和怪物等人形角色。实现娱乐所需的表现力表演需要操纵具有数百个参数的复杂模型。完全的创意控制需要在制作的任何阶段自由地进行编辑，这禁止使用具有无法解释的参数的全自动黑盒解决方案。另一方面，用这些复杂的模型制作逼真的动画既困难又费力。本文介绍了 FDLS 面部深度学习求解器，这是 Weta Digital 针对这些挑战的解决方案。 FDLS 采用从粗到细和人机交互策略，允许在求解过程的多个阶段验证和编辑求解的性能。为了训练 FDLS，我们首先将原始运动捕获数据转换为鲁棒的图形特征。其次，根据观察，艺术家通常会在处理更精细的细节之前完成下颌传递动画，我们首先求解下颌运动，并使用基于下颌位置的基于区域的网络来预测精细表情。最后，艺术家可以选择在 FDLS 解决方案之上调用非线性微调过程，以尽可能密切地跟踪运动捕获的虚拟标记。如果需要改进深度学习解决方案的结果，FDLS 支持编辑，并且它可以处理演员面部形状的日常微小变化。在许多情况下，FDLS 可以通过最少的培训和很少或根本不需要手动工作来实现可靠的生产质量性能求解，同时还允许在异常和困难的情况下指导和编辑求解。

Nearest Neighbor Guidance for Out-of-Distribution Detection
Authors Jaewoo Park, Yoon Gyo Jung, Andrew Beng Jin Teoh
检测分布外的 OOD 样本对于开放世界环境中部署的机器学习模型至关重要。基于分类器的评分因其细粒度的检测能力而成为 OOD 检测的标准方法。然而，这些分数经常遇到过度自信的问题，将远离分布区域的 OOD 样本错误分类。为了应对这一挑战，我们提出了一种称为最近邻指导 NNGuide 的方法，该方法指导基于分类器的分数尊重数据流形的边界几何形状。 NNGuide 减少了 OOD 样本的过度自信，同时保留了基于分类器的分数的细粒度能力。我们在不同设置下对 ImageNet OOD 检测基准进行了广泛的实验，包括 ID 数据经历自然分布变化的场景。我们的结果表明，NNGuide 在基本检测分数上提供了显着的性能改进，在 AUROC、FPR95 和 AUPR 指标上均取得了最先进的结果。

Locality-preserving Directions for Interpreting the Latent Space of Satellite Image GANs
Authors Georgia Kourmouli, Nikos Kostagiolas, Yannis Panagakis, Mihalis A. Nicolaou
我们提出了一种局部感知方法，用于解释基于小波的生成对抗网络 GAN 的潜在空间，该方法可以很好地捕获卫星图像特有的大空间和光谱变化。通过专注于保留局部性，所提出的方法能够分解预训练的 GAN 的权重空间，并恢复与城市化、结构密度、植物群存在等高级语义概念相对应的可解释方向，这些概念随后可用于卫星的引导合成图像。与通常使用的专注于捕获降维空间中权重空间的变化性的方法（即基于主成分分析，PCA）相比，我们表明，保留局部性会导致具有不同角度的向量，这些向量对伪影和伪影更加稳健。可以更好的保存班级信息。

ITEM3D: Illumination-Aware Directional Texture Editing for 3D Models
Authors Shengqi Liu, Zhuo Chen, Jingnan Gao, Yichao Yan, Wenhan Zhu, Xiaobo Li, Ke Gao, Jiangjiang Lyu, Xiaokang Yang
纹理编辑是 3D 建模中的一项关键任务，它允许用户自动操纵 3D 模型的表面材质。然而，3D 模型固有的复杂性和模糊的文本描述给这项任务带来了挑战。为了应对这一挑战，我们提出了 ITEM3D，这是一种照明感知模型，用于根据文本提示进行自动 3D 对象编辑。利用扩散模型和可微渲染，ITEM3D将渲染图像作为文本和3D表示的桥梁，并进一步优化解开的纹理和环境贴图。以前的方法采用绝对编辑方向，即评分蒸馏采样SDS作为优化目标，不幸的是，这导致了噪声出现和文本不一致。为了解决文本歧义引起的问题，我们引入了相对编辑方向，即由源文本和目标文本之间的噪声差异定义的优化目标，以释放文本和图像之间的语义歧义。此外，我们在优化过程中逐渐调整方向，以进一步解决纹理域中意外的偏差。定性和定量实验表明，我们的 ITEM3D 在各种 3D 对象上优于最先进的方法。

Cross-Dataset-Robust Method for Blind Real-World Image Quality Assessment
Authors Yuan Chen, Zhiliang Ma, Yang Zhao
尽管已经提出了许多有效的模型和现实世界数据集用于盲图像质量评估 BIQA，但最近的 BIQA 模型通常倾向于适合特定的训练集。因此，准确、鲁棒地测量任意现实世界图像的视觉质量仍然很困难。本文基于鲁棒的训练策略、大规模的现实世界数据集和强大的主干网络三个方面设计了一种鲁棒的BIQA方法。首先，许多基于流行和最先进的 SOTA Swin Transformer SwinT 的单独模型分别在不同的现实世界 BIQA 数据集上进行训练。然后，联合使用这些基于 SwinT 的有偏差模型来生成伪标签，该伪标签采用两个随机图像的相对质量概率而不是固定质量分数。然后提出具有 1,000,000 个图像对和伪标签的大规模真实世界图像数据集，用于训练最终的跨数据集鲁棒模型。

Unsupervised Reconstruction of 3D Human Pose Interactions From 2D Poses Alone
Authors Peter Hardy, Hansung Kim
由于单目图像的透视模糊性，当前的无监督 2D 3D 人体姿势估计 HPE 方法不适用于多人场景。因此，我们提出了首批研究之一，调查仅从 2D 姿势进行无监督多人 2D 3D HPE 的可行性，重点是重建人类交互。为了解决透视模糊的问题，我们通过预测摄像机相对于受试者骨盆的仰角来扩展之前的工作。这使我们能够将预测的姿势旋转到与地平面齐平，同时获得个体之间 3D 垂直偏移的估计。我们的方法涉及将每个主体的 2D 姿势独立提升到 3D，然后将它们组合到共享的 3D 坐标系中。然后，在缩放之前，将姿势旋转并偏移预测的仰角。这本身就使我们能够检索他们姿势的准确 3D 重建。

Navigating Text-To-Image Customization:From LyCORIS Fine-Tuning to Model Evaluation
Authors Shin Ying Yeh, Yu Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, Yanmin Gong
文本到图像生成模型因其根据文本提示生成高保真图像的能力而受到了极大的关注。其中，Stable Diffusion 是这个快速发展领域中领先的开源模型。然而，微调这些模型的复杂性带来了从新方法集成到系统评估的多重挑战。

Generalization of pixel-wise phase estimation by CNN and improvement of phase-unwrapping by MRF optimization for one-shot 3D scan
Authors Hiroto Harada, Michihiro Mikamo, Ryo Furukawa, Ryushuke Sagawa, Hiroshi Kawasaki
使用单模式投影的主动立体技术，又称单次 3D 扫描，已引起工业界、医疗目的等的广泛关注。单次 3D 扫描的一个严重缺点是稀疏重建。此外，由于为了有效嵌入，空间模式变得复杂，因此很容易受到噪声的影响，从而导致解码不稳定。为了解决这些问题，我们提出了一种单次扫描的逐像素插值技术，如果图案是规则且周期性的，则该技术适用于任何类型的静态图案。这是通过 U net 实现的，U net 通过 CG 和高效的数据增强算法进行预训练。在本文中，为了进一步克服解码的不稳定性，我们提出了一种基于马尔可夫随机场MRF优化的鲁棒对应查找算法。我们还提出了一种基于 b 样条和高斯核插值的形状细化算法，使用显式检测到的激光曲线。

Three-dimensional Tracking of a Large Number of High Dynamic Objects from Multiple Views using Current Statistical Model
Authors Nianhao Xie
从多个视角对多个对象进行三维跟踪具有广泛的应用，特别是在需要研究对象精确轨迹的生物集群行为研究中。然而，当对象彼此相似、频繁机动、大量聚集时，存在显着的时空关联不确定性。针对这种多视点多目标3D跟踪场景，遵循贝叶斯跟踪重建框架，提出了一种基于当前统计模型的卡尔曼粒子滤波器CSKPF方法。 CSKPF算法通过当前统计模型预测物体状态并估计物体状态协方差以提高粒子采样效率，并通过卡尔曼滤波器抑制测量噪声。仿真实验证明，与现有基于等速粒子滤波的CVPF方法相比，CSKPF方法能够提高跟踪完整性、连续性和精度。

Discrepancy Matters: Learning from Inconsistent Decoder Features for Consistent Semi-supervised Medical Image Segmentation
Authors Qingjie Zeng, Yutong Xie, Zilin Lu, Mengkang Lu, Yong Xia
半监督学习 SSL 已被证明有益于缓解有限标记数据的问题，尤其是在体积医学图像分割任务中。与之前的 SSL 方法专注于探索高度置信的伪标签或开发一致性正则化方案不同，我们的实证研究结果表明，当两个解码器努力生成一致的预测时，不一致的解码器特征自然会出现。基于观察，我们首先分析了在伪标签和一致性正则化设置下学习一致性的差异的宝藏，随后提出了一种称为 LeFeD 的新型 SSL 方法，该方法通过输入差异作为编码器的反馈信号。 LeFeD的核心设计是通过训练差异化解码器来放大差异，然后迭代地从不一致的信息中学习。我们在三个公共数据集上针对八种最先进的 SOTA 方法对 LeFeD 进行了评估。实验表明，LeFeD 在没有任何附加功能（例如不确定性估计和强约束）的情况下超越了竞争对手，并为半监督医学图像分割设定了新的技术水平。

ENIGMA-51: Towards a Fine-Grained Understanding of Human-Object Interactions in Industrial Scenarios
Authors Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Claudia Bonanno, Rosario Scavo, Antonino Furnari, Giovanni Maria Farinella
ENIGMA 51 是一个新的以自我为中心的数据集，由 19 名受试者在真实工业领域获得，他们按照指示使用电动螺丝刀等工业工具和示波器等电子仪器完成电路板的维修。这 51 个序列用丰富的标签进行了密集注释，可以对工业领域中的人体交互进行系统研究。我们提供与人类对象交互相关的四个任务的基准：1 未修剪的动作检测、2 以自我为中心的人类对象交互检测、3 短期对象交互预期和 4 对意图和实体的自然语言理解。基线结果表明，ENIGMA 51 数据集为研究工业场景中的人体交互提供了具有挑战性的基准。

3D printed realistic finger vein phantoms
Authors Luuk Spreeuwers, Rasmus van der Grift, Pesigrihastamadya Normakristagaluh
指静脉模式识别是一种新兴的生物识别技术，具有良好的抗呈现攻击能力和较低的错误率。一个问题是很难从活体手指获得真实的手指静脉模式。在本文中，我们提出了一种使用 3D 打印创建手指静脉模型的先进方法，其中我们使用不同的打印材料和参数来模拟手指内部各种组织（如骨骼、静脉和软组织）的光学特性。我们证明，我们能够创建手指模型，从而产生逼真的手指静脉图像和精确已知的静脉图案。这些模型可用于开发和评估手指静脉提取和识别方法。此外，我们还表明手指静脉模型可用于欺骗手指静脉识别系统。

3D Density-Gradient based Edge Detection on Neural Radiance Fields (NeRFs) for Geometric Reconstruction
Authors Miriam J ger, Boris Jutzi
从神经辐射场 NeRF 生成几何 3D 重建非常有趣。然而，基于密度值的准确且完整的重建具有挑战性。网络输出取决于输入数据、NeRF 网络配置和超参数。因此，直接使用密度值，例如通过使用全局密度阈值进行过滤，通常需要实证研究。假设密度从非对象区域到对象区域增加，则相对值的密度梯度的利用是显而易见的。由于密度表示位置相关参数，因此可以各向异性地处理它，因此体素化 3D 密度场的处理是合理的。在这方面，我们基于密度梯度来解决几何 3D 重建，而梯度是由一阶和二阶导数的 3D 边缘检测滤波器（即高斯的 Sobel、Canny 和拉普拉斯算子）产生的。梯度依赖于所有方向上的相对相邻密度值，因此与绝对大小无关。因此，梯度滤波器能够沿着较宽的密度范围提取边缘，几乎独立于假设和实证研究。我们的方法展示了实现几何 3D 重建的能力，在物体表面上具有高几何精度和卓越的物体完整性。

Semantic Map Learning of Traffic Light to Lane Assignment based on Motion Data
Authors Thomas Monninger, Andreas Weber, Steffen Staab
了解哪个交通灯控制哪条车道对于安全通过十字路口至关重要。自动驾驶车辆通常依赖于高清地图，其中包含有关交通灯到车道分配的信息。手动提供此信息非常繁琐、昂贵且不可扩展。为了解决这些问题，我们的新颖方法从交通灯状态和相应的车辆交通运动模式中得出分配。这是一种自动化的方式，并且独立于几何排列。我们通过实施和评估基于模式的贡献方法来展示基本统计方法对于此任务的有效性。此外，我们新颖的拒绝方法包括通过利用统计假设检验来进行安全考虑。最后，我们提出了一种数据集转换，以重新利用可用的运动预测数据集进行语义地图学习。

Treating Motion as Option with Output Selection for Unsupervised Video Object Segmentation
Authors Suhwan Cho, Minhyeok Lee, Jungho Lee, MyeongAh Cho, Sangyoun Lee
无监督视频对象分割 VOS 是一项旨在检测视频中最显着的对象而无需有关对象的外部指导的任务。为了利用显着物体与背景相比通常具有独特运动的特性，最近的方法协作使用从光流图提取的运动线索和从 RGB 图像提取的外观线索。然而，由于光流图通常与分割掩模非常相关，因此在网络训练期间网络很容易过度依赖于运动线索来学习。因此，这两种流方法很容易受到令人困惑的运动线索的影响，从而导致它们的预测不稳定。为了解决这个问题，我们通过将运动提示视为可选来设计一种新颖的运动作为选项网络。在网络训练期间，RGB 图像而不是光流图被随机提供给运动编码器，以隐式减少网络的运动依赖性。由于学习运动编码器可以处理 RGB 图像和光流图，因此可以根据使用哪个源信息作为运动输入来生成两个不同的预测。为了充分利用这一特性，我们还提出了一种自适应输出选择算法，以在测试时采用最佳预测结果。

Frugal Satellite Image Change Detection with Deep-Net Inversion
Authors Hichem Sahbi, Sebastien Deschamps
卫星图像中的变化检测旨在寻找在不同时刻拍摄的给定场景中发生的目标变化。这项任务有多种应用，从土地覆盖绘图到人类活动监测以及气候变化和自然灾害损害评估。然而，由于采集条件以及变化的主观性，变化检测非常具有挑战性。在本文中，我们设计了一种基于主动学习的变化检测新算法。所提出的方法基于问答模型，该模型仅在称为虚拟样本的一小组关键图像上向预言机用户探测变化的相关性，并根据预言机的响应更新深度神经网络 DNN 分类器。主要贡献在于一种新颖的对抗模型，该模型允许学习最具代表性、多样化和不确定性的虚拟样本作为训练有素的 DNN 的倒置原像，从而对训练有素的 DNN 提出最大的挑战，这可以在后续的研究中更好地重新估计这些网络。主动学习的迭代。

Multi-Label Feature Selection Using Adaptive and Transformed Relevance
Authors Sadegh Eskandari, Sahar Ghassabi
多标签学习已成为数据分析中的重要范例，解决实例同时与多个类标签相关联的场景。随着多标签数据在文本和图像分类等不同应用中的日益普及，多标签特征选择的重要性变得越来越明显。本文提出了一种基于信息论过滤器的多标签特征选择，称为 ATR，具有新的启发式功能。 ATR 结合了算法适应和问题转换方法，考虑单个标签以及抽象标签空间判别力对特征进行排序。我们的实验研究涵盖了跨越各个领域的十二个基准，证明了我们的方法在六个评估指标上比十种最先进的基于信息理论过滤器的多标签特征选择方法的优越性。此外，我们的实验证实了 ATR 对于以广泛特征和标签空间为特征的基准的可扩展性。

InvKA: Gait Recognition via Invertible Koopman Autoencoder
Authors Fan Li, Dong Liang, Jing Lian, Qidong Liu, Hegui Zhu, Jizhao Liu
当前大多数步态识别方法都存在可解释性差和计算成本高的问题。为了提高可解释性，我们基于库普曼算子理论研究了嵌入空间中的步态特征。该空间中的转移矩阵捕获步态周期的复杂运动学特征，即库普曼算子。算子矩阵的对角线元素可以代表整体运动趋势，提供物理上有意义的描述符。为了降低算法的计算成本，我们使用可逆自动编码器来减小模型大小并消除卷积层以压缩其深度，从而减少浮点运算。

On quantifying and improving realism of images generated with diffusion
Authors Yunzhuo Chen, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian
扩散模型的最新进展导致生成视觉内容的质量发生了质的飞跃。然而，内容真实性的量化仍然具有挑战性。由于生成图像的多功能性，现有的评估指标（例如 Inception Score 和 Fr chet inception distance）无法满足基准扩散模型的要求。此外，它们并不是为了量化单个图像的真实感而设计的。这限制了它们在法医图像分析中的应用，而法医图像分析在生成模型的新兴时代变得越来越重要。为了解决这个问题，我们首先提出了一个称为“图像真实感得分 IRS”的指标，它是根据给定图像的五个统计指标计算得出的。这种非基于学习的度量不仅可以有效地量化生成图像的真实感，而且可以很容易地用作将给定图像分类为真或假的度量。

Image Denoising via Style Disentanglement
Authors Jingwei Niu, Jun Cheng, Shan Tan
图像去噪是低级计算机视觉中的一项基本任务。虽然最近基于深度学习的图像去噪方法取得了令人印象深刻的性能，但它们是黑盒模型，并且底层的去噪原理仍不清楚。在本文中，我们提出了一种新颖的图像去噪方法，该方法提供了清晰的去噪机制和良好的性能。我们将噪声视为一种图像样式，并通过合并源自干净图像的无噪声样式来消除噪声。为了实现这一目标，我们设计了新颖的损失和网络模块，以从噪声图像中提取噪声样式，并从干净图像中提取无噪声样式。无噪声风格会导致特征空间中噪声特征的低响应激活和内容特征的高响应激活。这导致干净的内容与噪声分离，有效地对图像进行去噪。与使用样式编辑语义级别属性的基于解开的图像编辑任务不同，我们的主要贡献在于通过全局无噪声样式编辑像素级别属性。我们对合成噪声去除和真实世界图像去噪数据集 SIDD 和 DND 进行了广泛的实验，证明了我们的方法在 PSNR 和 SSIM 指标方面的有效性。

Advanced Volleyball Stats for All Levels: Automatic Setting Tactic Detection and Classification with a Single Camera
Authors Haotian Xia, Rhys Tracy, Yun Zhao, Yuqing Wang, Yuan Fang Wang, Weining Shen
本文介绍了 PathFinder 和 PathFinderPlus，这是两个新颖的端到端计算机视觉框架，专为从单个摄像机视图进行排球比赛中的高级设置策略分类而设计。我们的框架将设定球轨迹识别与新颖的设定轨迹分类器相结合，以生成全面且先进的统计数据。这种方法为比赛分析提供了全新的视角，并超越了排球统计中当前的粒度水平。与我们的基线 PathFinder 框架中使用的现有方法相比，我们在 PathFinderPlus 中提出的球轨迹检测方法在各种游戏条件下对设置策略进行分类时表现出卓越的性能。这种鲁棒性在处理复杂的游戏情况和适应不同的摄像机角度时特别有利。此外，我们的研究引入了一种创新算法，可以在比赛过程中自动识别对方球队右侧击球手当前排的前排或后排，为战术分析提供重要的见解。我们的单摄像头系统的可行性和优势的成功演示使各种技能水平和资源可用性的排球爱好者都可以进行高水平的技术分析。

Text-image guided Diffusion Model for generating Deepfake celebrity interactions
Authors Yunzhuo Chen, Nur Al Hasan Haldar, Naveed Akhtar, Ajmal Mian
Deepfake 图像因其真实性而迅速成为人们严重关注的问题。扩散模型最近展示了高度逼真的视觉内容生成，这使得它们成为 Deepfake 生成的绝佳潜在工具。为了遏制他们对 Deepfakes 的利用，必须首先探索扩散模型可以在多大程度上用于生成可通过方便提示控制的真实内容。本文在这方面设计并探索了一种新颖的方法。我们的技术改变了流行的稳定扩散模型，以生成带有文本和图像提示的可控高质量 Deepfake 图像。此外，原始的稳定模型在生成包含多人的高质量图像方面严重缺乏。修改后的扩散模型能够解决这个问题，它在推理开始时添加输入锚定图像而不是高斯随机潜在图像作为输入。因此，我们专注于为名人互动生成伪造的内容，这些内容可能被用来传播谣言。我们还应用 Dreambooth 来增强假图像的真实感。 Dreambooth 训练中心词和特定特征的配对，以生成更精致和个性化的输出图像。

SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion
Authors Qiao Yang, Yu Zhang, Jian Zhang, Zijing Zhao, Shunli Zhang, Jinqiao Wang, Junzhe Chen
大多数现有的基于学习的红外和可见光图像融合 IVIF 方法在融合图像中表现出大量冗余信息，即产生边缘模糊效果或目标检测器无法识别。为了缓解这些问题，我们提出了一种 IVIF 语义结构保留方法，即 SSPFusion。首先，我们设计了一个结构特征提取器SFE来提取红外和可见光图像的结构特征。然后，我们引入了多尺度结构保留融合SPF模块来融合红外和可见光图像的结构特征，同时保持融合图像和源图像之间语义结构的一致性。由于这两个有效的模块，我们的方法能够从成对的红外和可见光图像中生成高质量的融合图像，这可以提高下游计算机视觉任务的性能。三个基准的实验结果表明，我们的方法在定性和定量评估方面都优于八种最先进的图像融合方法。

ADU-Depth: Attention-based Distillation with Uncertainty Modeling for Depth Estimation
Authors Zizhang Wu, Zhuozheng Li, Zhi Gang Fan, Yunzhe Wu, Xiaoquan Wang, Rui Tang, Jian Pu
单目深度估计由于其固有的模糊性和不适定性质而具有挑战性，但它对许多应用来说非常重要。虽然最近的工作通过设计日益复杂的网络来从单个 RGB 图像中提取具有有限空间几何线索的特征来实现有限的精度，但我们打算通过训练利用左右图像对作为输入的教师网络并传输学习的 3D 几何来引入空间线索了解单眼学生网络的知识。具体来说，我们提出了一种新颖的知识蒸馏框架，名为 ADU Depth，其目标是利用训练有素的教师网络来指导学生网络的学习，从而借助额外的空间场景信息来提高精确的深度估计。为了实现领域适应并确保从教师到学生的有效且顺利的知识转移，我们在训练阶段应用了注意力适应特征蒸馏和焦点深度适应响应蒸馏。此外，我们对深度估计的不确定性进行显式建模，以指导特征空间和结果空间中的蒸馏，从而更好地从单目观察中生成 3D 感知知识，从而增强对难以预测图像区域的学习。

PLMM: Personal Large Models on Mobile Devices
Authors Yuanhao Gong
受联邦学习的启发，在本文中，我们提出了个人大模型，该模型是从传统大语言模型中提炼出来的，但更适合本地用户的个人信息，例如教育背景和爱好。我们将大语言模型分为三个级别：个人级别、专家级别和传统级别。个人级别模型适应用户的个人信息。他们对用户输入进行加密并保护他们的隐私。专家级模型侧重于融合金融、IT 和艺术等特定知识。传统模型侧重于通用知识发现和专家模型升级。在这种分类中，个人模型直接与用户交互。对于整个系统来说，个人模型具有用户加密的个人信息。此外，此类模型必须足够小，以便在个人计算机或移动设备上执行。最后，他们还必须实时响应，以获得更好的用户体验并产生高质量的结果。

Explaining Deep Face Algorithms through Visualization: A Survey
Authors Thrupthi Ann John, Vineeth N Balasubramanian, C. V. Jawahar
尽管当前面部任务的深度模型在某些基准上超越了人类的表现，但我们不了解它们是如何工作的。因此，我们无法预测它将如何对新的输入做出反应，从而导致灾难性的失败和算法中不必要的偏差。可解释的人工智能有助于弥合这一差距，但目前，针对人脸设计的可视化算法很少。这项工作对人脸领域的可解释性算法进行了首次元分析。我们探讨了将通用可视化算法应用于面部领域的细微差别和注意事项，通过流行面部模型上的计算可视化来说明。我们回顾了现有的面部可解释性工作，并揭示了对面部网络的结构和层次结构的宝贵见解。

Bootstrap Diffusion Model Curve Estimation for High Resolution Low-Light Image Enhancement
Authors Jiancheng Huang, Yifan Liu, Shifeng Chen
基于学习的方法引起了很多研究的关注，并导致低光图像增强的显着改进。然而，它们中的大多数仍然面临两个主要问题：高分辨率图像中昂贵的计算成本以及同时增强和去噪的性能不令人满意。为了解决这些问题，我们提出了 BDCE，这是一种自举扩散模型，它利用曲线参数分布的学习而不是普通光图像本身。具体来说，我们采用曲线估计方法来处理高分辨率图像，其中曲线参数由我们的自举扩散模型估计。另外，在曲线调整的每次迭代中应用去噪模块，对每次迭代的中间增强结果进行去噪。

Tile Classification Based Viewport Prediction with Multi-modal Fusion Transformer
Authors Zhihao Zhang, Yiwei Chen, Weizhan Zhang, Caixia Yan, Qinghua Zheng, Qi Wang, Wangdu Chen
视口预测是基于图块的 360 度视频流系统的一个重要方面。然而，现有的基于轨迹的方法缺乏鲁棒性，也过度简化了不同模态输入之间的信息构建和融合过程，导致误差累积问题。在本文中，我们提出了一种基于多模态融合变换器的基于图块分类的视口预测方法，即MFTR。具体来说，MFTR 利用基于变压器的网络来提取每种模态内的长程依赖性，然后挖掘模态内和模间关系以捕获用户历史输入和视频内容对未来视口选择的综合影响。此外，MFTR将未来图块分为用户感兴趣或不感兴趣的两类，并选择未来视口作为包含大多数用户感兴趣图块的区域。与预测头部轨迹相比，基于tile的二元分类结果选择未来视口表现出更好的鲁棒性和可解释性。为了评估我们提出的 MFTR，我们对两个广泛使用的 PVS HM 和 Xu Gaze 数据集进行了广泛的实验。

Structure Invariant Transformation for better Adversarial Transferability
Authors Xiaosen Wang, Zeliang Zhang, Jianping Zhang
鉴于深度神经网络 DNN 针对对抗性示例的严重脆弱性，迫切需要一种有效的对抗性攻击来识别 DNN 在安全敏感应用中的缺陷。作为普遍存在的黑盒对抗攻击之一，现有的基于传输的攻击仍然无法达到与白盒攻击相当的性能。其中，基于输入转换的攻击在提高可转移性方面显示出显着的有效性。在这项工作中，我们发现现有的基于输入变换的攻击对输入图像进行全局变换，导致变换后图像的多样性有限。我们假设变换后的图像越多样化，可转移性越好。因此，我们研究如何在输入图像上局部应用各种变换，以提高这种多样性，同时保留图像的结构。为此，我们提出了一种新颖的基于输入变换的攻击，称为结构不变攻击 SIA，它将随机图像变换应用于每个图像块，以制作一组用于梯度计算的不同图像。在标准 ImageNet 数据集上进行的大量实验表明，SIA 比现有的基于 SOTA 输入变换的对基于 CNN 和基于 Transformer 的模型的攻击表现出更好的可迁移性，显示了其在提高可迁移性方面的通用性和优越性。

A Simple Text to Video Model via Transformer
Authors Gang Chen
我们提出了一个基于 Transformer 的通用且简单的文本到视频模型。由于文本和视频都是顺序数据，因此我们将文本和图像编码到相同的隐藏空间中，这些隐藏空间进一步输入到 Transformer 中以捕获时间一致性，然后解码以生成文本或图像。考虑到图像信号在长序列中可能会变弱，我们引入 U Net 从其噪声版本重建图像。具体来说，我们在长序列中增加原始图像的噪声水平，然后使用U Net的down模块对噪声图像进行编码，这些噪声图像进一步输入到transformer以预测下一个清晰图像。我们还添加了一个约束来促进视频中任何生成的图像对之间的运动。

DONNAv2 -- Lightweight Neural Architecture Search for Vision tasks
Authors Sweta Priyadarshi, Tianyu Jiang, Hsin Pai Cheng, Sendil Krishna, Viswanath Ganapathy, Chirag Patel
随着对视觉应用和跨边缘设备部署的需求不断增长，开发在设备部署期间保持性能的硬件友好架构变得至关重要。神经架构搜索 NAS 技术探索各种方法，以计算有效的方式发现用于不同学习任务的有效架构。在本文中，我们提出了用于计算高效的神经架构蒸馏 DONNAv2 的下一代神经架构设计。传统的 NAS 算法依赖于计算量大的阶段，在该阶段中学习准确度预测器来估计搜索空间内的模型性能。这种准确性预测器的构建可以帮助他们预测未经微调的模型的性能。在这里，我们开发了一种优雅的方法来消除构建准确性预测器并将 DONNA 扩展到计算高效的设置。形成网络的各个块的损失度量充当 NAS 搜索阶段采样模型的替代性能度量。为了验证 DONNAv2 的性能，我们进行了广泛的实验，涉及一系列不同的视觉任务，包括分类、目标检测、图像去噪、超分辨率和全景感知网络 YOLOP。硬件在环实验是使用三星 Galaxy S10 移动平台进行的。值得注意的是，对于较大的数据集，DONNAv2 将 DONNA 的计算成本降低了 10 倍。

ZiCo-BC: A Bias Corrected Zero-Shot NAS for Vision Tasks
Authors Kartikeya Bhardwaj, Hsin Pai Cheng, Sweta Priyadarshi, Zhuojin Li
零样本神经架构搜索 NAS 方法提出了一种称为零样本代理的新型免训练指标，与传统的基于训练的 NAS 相比，可以大大减少搜索时间。尽管在图像分类方面取得了成功，但很少在复杂的视觉任务（例如语义分割和对象检测）上评估零样本代理的有效性。此外，现有的零样本代理被证明偏向于某些模型特征，这限制了它们的广泛适用性。在本文中，我们实证研究了最先进的 SOTA 零样本代理 ZiCo 在多个视觉任务中的偏差，并观察到 ZiCo 偏向于更薄和更深的网络，从而导致次优架构。为了解决这个问题，我们提出了一种新的 ZiCo 偏差校正方法，称为 ZiCo BC。

CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration
Authors Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Fangning Li, Zhen Dong, Bisheng Yang
图像到点云 I2P 配准是机器人导航和移动测绘领域的一项基本任务。现有的 I2P 配准工作估计点到像素级别的对应关系，忽略全局对齐。然而，没有全局约束的高级指导的 I2P 匹配可能很容易收敛到局部最优。为了解决这个问题，本文提出了CoFiI2P，一种新颖的I2P注册网络，它以从粗到细的方式提取对应关系以获得全局最优解。首先，将图像和点云输入连体编码器解码器网络以进行分层特征提取。然后，设计一个从粗到细的匹配模块来利用特征并建立弹性特征对应关系。具体来说，在粗匹配块中，采用新颖的 I2P 转换器模块来捕获图像和点云中的同质和异构全局信息。利用判别描述符，估计粗略的超点到超像素匹配对。在精细匹配模块中，通过超点对超像素对应监督建立点对像素对。最后，基于匹配对，使用EPnP RANSAC算法估计变换矩阵。在 KITTI 数据集上进行的大量实验表明，CoFiI2P 的相对旋转误差 RRE 为 2.25 度，相对平移误差 RTE 为 0.61 米。这些结果表明，与当前最先进的 SOTA 方法相比，RRE 显着提高了 14，RTE 显着提高了 52。

Text-to-Image Generation for Abstract Concepts
Authors Jiayi Liao, Xu Chen, Qiang Fu, Lun Du, Xiangnan He, Xiang Wang, Shi Han, Dongmei Zhang
近年来，自然语言处理和计算机视觉等各个领域的大规模模型取得了实质性进展，促进了具体概念的表达。与通常与物理对象直接相关的具体概念不同，通过自然语言表达抽象概念需要相当大的努力，这是由于其复杂的语义和内涵造成的。另一种方法是利用图像来传达丰富的视觉信息作为补充。然而，现有的文本到图像 T2I 模型主要针对具体的物理对象进行训练，往往无法将抽象概念可视化。受到识别艺术创作过程中关键因素、意图、对象和形式的三层艺术品理论的启发，我们提出了抽象概念 TIAC 的文本到图像生成框架。将抽象的概念澄清为明确的意图，并提供详细的定义，以避免歧义。然后法学硕士将其转换为语义相关的物理对象，并从法学硕士提取的形式模式集中检索概念依赖形式。这三个方面的信息将被整合起来，通过LLM生成T2I模型的提示。

Divide and Conquer in Video Anomaly Detection: A Comprehensive Review and New Approach
Authors Jian Xiao, Tianyuan Liu, Genlin Ji
视频异常检测是一项复杂的任务，分而治之的原则通常被认为是解决复杂问题的有效方法。值得注意的是，最近的视频异常检测方法揭示了分而治之哲学的应用，尽管与传统用法有不同的视角，但产生了令人印象深刻的结果。本文从六个维度对这些文献进行了系统回顾，旨在增强分而治之策略在视频异常检测中的应用。此外，基于从本次审查中获得的见解，提出了一种新颖的方法，它将人体骨骼框架与视频数据分析技术相结合。

NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space
Authors Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Ouyang Wanli, Hongsheng Li
单目 3D 语义场景完成 SSC 近年来引起了广泛关注，因为它具有从单个图像预测复杂语义和几何形状的潜力，而无需 3D 输入。在本文中，我们确定了当前最先进方法中的几个关键问题，包括射线中投影到 3D 空间的 2D 特征的特征模糊性、3D 卷积的姿态模糊性以及 3D 卷积中的计算不平衡不同的深度级别。为了解决这些问题，我们设计了一种新颖的标准化设备坐标场景完成网络 NDC Scene，通过反卷积逐步恢复深度维度，直接将 2D 特征图扩展到标准化设备坐标 NDC 空间，而不是直接扩展到世界空间操作。实验结果表明，将大部分计算从目标 3D 空间转移到所提出的标准化设备坐标空间有利于单目 SSC 任务。此外，我们设计了深度自适应双解码器来同时对 2D 和 3D 特征图进行上采样和融合，进一步提高整体性能。我们的大量实验证实，所提出的方法在室外 SemanticKITTI 和室内 NYUv2 数据集上始终优于最先进的方法。

Event Stream-based Visual Object Tracking: A High-Resolution Benchmark Dataset and A Novel Baseline
Authors Xiao Wang, Shiao Wang, Chuanming Tang, Lin Zhu, Bo Jiang, Yonghong Tian, Jin Tang
近年来，使用仿生事件摄像机进行跟踪引起了越来越多的关注。现有的作品要么利用对齐的 RGB 和事件数据进行准确跟踪，要么直接学习基于事件的跟踪器。第一类需要更多的推理成本，第二类可能很容易受到噪声事件或稀疏空间分辨率的影响。在本文中，我们提出了一种新颖的分层知识蒸馏框架，该框架可以在训练期间充分利用多模态多视图信息来促进知识转移，使我们能够仅使用事件信号在测试期间实现高速和低延迟的视觉跟踪。具体来说，首先通过同时输入 RGB 帧和事件流来训练基于 Transformer 的多模式跟踪框架。然后，我们设计了一种新的分层知识蒸馏策略，包括成对相似性、特征表示和基于响应图的知识蒸馏，以指导学生 Transformer 网络的学习。此外，由于现有的基于事件的跟踪数据集都是低分辨率的 346 × 260，我们提出了第一个大规模高分辨率的 1280 × 720 数据集，名为 EventVOT。它包含 1141 个视频，涵盖行人、车辆、无人机、乒乓球等广泛的类别。在低分辨率 FE240hz、VisEvent、COESOT 和我们新提出的高分辨率 EventVOT 数据集上进行的大量实验充分验证了我们的有效性提出的方法。

Progressive Text-to-3D Generation for Automatic 3D Prototyping
Authors Han Yi, Zhedong Zheng, Xiangyu Xu, Tat seng Chua
文本到 3D 生成是根据自然语言描述制作 3D 对象。这可以显着减少手动设计3D模型的工作量，并为用户提供更自然的交互方式。然而，这个问题在有效恢复细粒度细节和有效优化大尺寸 3D 输出方面仍然具有挑战性。受渐进式学习成功的启发，我们提出了多尺度三平面网络 MTN 和新的渐进式学习策略。顾名思义，多尺度三平面网络由四个从低分辨率过渡到高分辨率的三平面组成。低分辨率三平面可以作为高分辨率三平面的初始形状，减轻优化难度。为了进一步实现细粒度细节，我们还引入了渐进式学习策略，该策略明确要求网络将注意力焦点从简单的粗粒度模式转移到困难的细粒度模式。我们的实验验证了所提出的方法相对于现有方法的性能更好。即使是最具挑战性的描述，大多数现有方法都难以产生可行的形状，我们提出的方法始终如一地提供。

DifAttack: Query-Efficient Black-Box Attack via Disentangled Feature Space
Authors Liu Jun, Zhou Jiantao, Zeng Jiandian, Jinyu Tian
这项工作研究了基于有效分数的黑盒对抗攻击，具有高攻击成功率 ASR 和良好的通用性。我们设计了一种基于解缠结特征空间的新型攻击方法，称为 DifAttack，它与在整个特征空间上运行的现有攻击方法有很大不同。具体来说，DifAttack首先将图像的潜在特征分解为对抗特征和视觉特征，其中前者主导图像的对抗能力，而后者很大程度上决定其视觉外观。我们使用成对的干净图像及其通过白盒攻击方法从可用代理模型生成的对抗性示例 AE 来训练自动编码器进行解开。最终，DifAttack 根据受害者模型的查询反馈迭代优化对抗特征，直到生成成功的 AE，同时保持视觉特征不变。此外，由于在优化黑盒模型的AE时避免使用代理模型梯度信息，我们提出的DifAttack本质上在受害模型的训练数据集未知的开放集场景中具有更好的攻击能力。大量的实验结果表明，我们的方法同时实现了 ASR 和查询效率的显着提高，特别是在定向攻击和开放集场景中。

Generative Escher Meshes
Authors Noam Aigerman, Thibault Groueix
本文提出了一种全自动、文本引导的生成方法，用于生成周期性、重复性、可平铺的 2D 艺术，例如在地板、马赛克、陶瓷和 M.C. 的作品上看到的艺术。埃舍尔。与无缝纹理的标准概念（即平铺时无缝的方形图像）相反，我们的方法生成仅包含同一对象的重复副本的非方形平铺。它通过优化 2D 网格的几何形状和颜色来实现这一目标，以便生成所需对象的形状和外观的非方形图块，几乎没有额外的背景细节。我们的关键技术贡献是对给定对称组的所有可能的可平铺形状的空间进行无约束、可微分的参数化，从而实现平铺的几何优化。也就是说，我们证明修改 2D 网格映射技术 Orbifold Tutte Embedding 中使用的拉普拉斯可以实现所选平面对称组的所有可能的平铺配置。因此，我们将网格的平铺形状及其纹理视为可优化参数，通过可微渲染器渲染纹理网格。我们利用经过训练的图像扩散模型来定义结果图像的损失，从而根据其与文本提示匹配的外观来更新网格的参数。

Dynamic Scene Graph Representation for Surgical Video
Authors Felix Holm, Ghazal Ghazaei, Tobias Czempiel, Ege zsoy, Stefan Saur, Nassir Navab
从显微或内窥镜成像设备捕获的手术视频是丰富但复杂的信息源，描绘了长时间使用的不同工具和解剖结构。

Pixel-Grounded Prototypical Part Networks
Authors Zachariah Carmichael, Suhas Lohit, Anoop Cherian, Michael Jones, Walter Scheirer
原型部分神经网络 ProtoPartNN，即 PROTOPNET 及其衍生物，是一种本质上可解释的机器学习方法。他们的原型学习方案可以直观地解释形式，这个原型看起来像测试图像补丁。但是，这实际上看起来像那样吗？在这项工作中，我们深入研究了为什么过去工作中的对象部分定位和相关热图会产生误导。现有的 ProtoPartNN 不是定位到对象部分，而是定位到整个图像，这与生成的解释性可视化相反。我们认为，对这些根本问题的偏离是由于可视化的诱人本质和对直觉的过度依赖。为了缓解这些问题，我们设计了新的基于感受野的架构约束，以实现有意义的定位，并为 ProtoPartNN 设计原则性的像素空间映射。为了提高可解释性，我们提出了额外的架构改进，包括简化的分类头。我们还对 PROTOPNET 及其衍生产品进行了额外的修正，例如使用验证集而不是测试集来评估训练期间的泛化能力。我们的方法 PIXPNET Pixel grounded Prototropic Part Network 是唯一真正能够学习和本地化原型对象部件的 ProtoPartNN。

Aligning Large Multimodal Models with Factually Augmented RLHF
Authors Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang Yan Gui, Yu Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell
大型多模态模型 LMM 是跨模态构建的，两种模态之间的不一致可能会导致幻觉，生成不以上下文中的多模态信息为基础的文本输出。为了解决多模态错位问题，我们将人类反馈 RLHF 的强化学习从文本域应用到视觉语言对齐任务，其中要求人类注释者比较两个响应并找出更幻觉的一个，视觉语言模型是训练以最大化模拟人类奖励。我们提出了一种名为 Factually Augmented RLHF 的新对齐算法，该算法通过附加事实信息（例如图像标题和真实多选选项）来增强奖励模型，从而减轻 RLHF 中的奖励黑客现象并进一步提高性能。我们还使用以前可用的人类书写图像文本对增强了 GPT 4 生成的用于视觉指令调整的训练数据，以提高我们模型的一般功能。为了在现实场景中评估所提出的方法，我们开发了一个新的评估基准 MMHAL BENCH，特别关注惩罚幻觉。作为第一个使用 RLHF 训练的 LMM，我们的方法在 LLaVA Bench 数据集上取得了显着的改进，文本仅达到 GPT 4 的 94 性能水平，而以前的最佳方法只能达到 87 水平，并且在 MMHAL BENCH 上比其他方法提高了 60基线。

UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities
Authors Shiming Wang, Holger Caesar, Liangliang Nan, Julian F. P. Kooij
多传感器物体检测是自动驾驶领域的一个活跃的研究课题，但是这种检测模型针对传感器输入模态丢失（例如由于传感器突然故障）而丢失的鲁棒性是一个仍在研究中的关键问题。在这项工作中，我们提出了 UniBEV，这是一种端到端多模态 3D 对象检测框架，旨在针对缺失模态的鲁棒性 UniBEV 可以在 LiDAR 加摄像头输入上运行，也可以在仅 LiDAR 或仅摄像头输入上运行，无需重新训练。为了方便其探测器头处理不同的输入组合，UniBEV 的目标是从每种可用模态创建良好对齐的鸟瞰 BEV 特征图。与之前基于 BEV 的多模态检测方法不同，所有传感器模态都遵循统一的方法将特征从本机传感器坐标系重新采样到 BEV 特征。我们还研究了各种融合策略的稳健性。缺少常用的特征串联模式，但也缺少通道平均，以及称为通道归一化权重的加权平均的概括。为了验证其有效性，我们在所有传感器输入组合上将 UniBEV 与 nuScenes 上最先进的 BEVFusion 和 MetaBEV 进行比较。在此设置中，UniBEV 在所有输入组合上平均达到 52.5 mAP，比 BEVFusion 平均 43.5 mAP、MetaBEV 平均 48.7 mAP 的基线显着提高。消融研究表明，通过加权平均进行融合相对于常规串联以及在每种模态的 BEV 编码器之间共享查询具有鲁棒性优势。

Accurate and Interactive Visual-Inertial Sensor Calibration with Next-Best-View and Next-Best-Trajectory Suggestion
Authors Christopher L. Choi, Binbin Xu, Stefan Leutenegger
视觉惯性 VI 传感器在机器人、自动驾驶车辆以及增强和虚拟现实应用中很受欢迎。为了将它们用于任何计算机视觉或状态估计任务，良好的校准至关重要。然而，收集信息丰富的校准数据以使校准参数可观察对于非专家来说并非易事。在这项工作中，我们介绍了一种新颖的 VI 校准流程，指导非专家使用图形用户界面和信息理论来收集信息丰富的校准数据，并提供下一个最佳视图和下一个最佳轨迹建议来校准内在、外在和时间VI 传感器未对准。我们通过实验表明，我们的方法比最先进的替代方法更快、更准确、更一致。具体来说，我们展示了当使用最先进的 VI 里程计和 VI SLAM 方法时，使用我们提出的方法进行校准如何实现更高精度的估计结果。

Assessment of IBM and NASA's geospatial foundation model in flood inundation mapping
Authors Wenwen Li, Hyunho Lee, Sizhe Wang, Chia Yu Hsu, Samantha T. Arundel
视觉基础模型是 GeoAI 研究的新前沿，因为它们有潜力通过从大量地理空间数据中学习和提取重要图像特征来实现强大的图像分析。本文评估了首个此类地理空间基础模型 IBM NASA 的 Prithvi 的性能，以支持关键的地理空间分析任务洪水淹没绘图。该模型与流行的基于卷积神经网络和视觉转换器的架构在洪水区域的绘图精度方面进行了比较。实验中使用基准数据集 Sen1Floods11，并基于测试数据集和模型完全看不到的数据集来评估模型的可预测性、泛化性和可转移性。结果显示了 Prithvi 模型令人印象深刻的可移植性，突显了其在分割以前未见过的区域的洪水区域方面的性能优势。

Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator
Authors Hanzhuo Huang, Yufan Feng, Cheng Shi, Lan Xu, Jingyi Yu, Sibei Yang
文本到视频是一个快速发展的研究领域，旨在生成语义、相同和时间连贯的帧序列，与输入文本提示准确对齐。本研究的重点是考虑数据和成本效率的零镜头文本到视频生成。为了生成语义连贯的视频，展示时间语义的丰富描述，例如花朵盛开的整个过程，而不是一组移动图像，我们提出了一种新颖的 Free Bloom 管道，它利用大型语言模型 LLM 作为导演来生成语义连贯提示序列，同时预先训练的潜在扩散模型 LDM 作为动画师来生成高保真度帧。此外，为了确保时间和相同的一致性，同时保持语义一致性，我们提出了一系列注释性修改，以在反向过程中适应LDM，包括联合噪声采样、步骤感知注意力转移和双路径插值。无需任何视频数据和训练要求，Free Bloom 即可生成生动且高质量的视频，在生成具有语义意义的帧序列的复杂场景方面令人惊叹。

Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving
Authors Mahyar Najibi, Jingwei Ji, Yin Zhou, Charles R. Qi, Xinchen Yan, Scott Ettinger, Dragomir Anguelov
仅在一组预定义的对象类别上训练的闭集 3D 感知模型可能不足以满足安全关键应用的需要，例如自动驾驶，在部署后可能会遇到新的对象类型。在本文中，我们提出了一种多模态自动标记管道，能够生成非模态 3D 边界框和轨迹，用于在没有 3D 人类标签的开放集类别上训练模型。我们的管道利用点云序列中固有的运动线索，结合免费提供的 2D 图像文本对来识别和跟踪所有交通参与者。与该领域最近的研究相比，该研究只能提供仅限于移动对象的类无关自动标签，我们的方法可以以无监督的方式处理静态和移动对象，并且由于所提出的视觉语言，能够输出开放词汇语义标签知识蒸馏。

Incorporating Ensemble and Transfer Learning For An End-To-End Auto-Colorized Image Detection Model
Authors Ahmed Samir Ragab, Shereen Aly Taie, Howida Youssry Abdelnaby
图像着色是对灰度图像进行着色或对已经彩色图像进行重新着色的过程。这种图像处理可用于灰度卫星、医学和历史图像，使它们更具表现力。借助深度学习技术不断增强的计算能力，着色算法的结果变得更加真实，以至于人眼无法区分自然图像和彩色图像。然而，这带来了潜在的安全问题，因为伪造或非法操纵的图像可能会被非法使用。人们越来越需要有效的检测方法来区分自然颜色和计算机彩色图像。本文提出了一种新颖的方法，结合了迁移和集成学习方法的优点，有助于减少训练时间和资源需求，同时提出了一种对自然颜色和计算机彩色图像进行分类的模型。所提出的模型使用预先训练的分支 VGG16 和 Resnet50，以及 Mobile Net v2 或 Efficientnet 特征向量。所提出的模型显示出令人鼓舞的结果，准确度范围为 94.55 至 99.13，并且半总错误率值非常低。

FARSEC: A Reproducible Framework for Automatic Real-Time Vehicle Speed Estimation Using Traffic Cameras
Authors Lucas Liebe, Franz Sauerwald, Sylwester Sawicki, Matthias Schneider, Leo Schuhmann, Tolga Buz, Paul Boes, Ahmad Ahmadov, Gerard de Melo
使用交通摄像头估算车辆的速度是交通监控和管理的一项重要任务，可以实现更优化的交通流量、提高道路安全并降低对环境的影响。依赖于运输的系统，例如导航和物流系统，具有从可靠的速度估计中受益的巨大潜力。虽然该领域的先前研究报告了具有竞争力的准确性水平，但他们的解决方案缺乏跨不同数据集的可重复性和稳健性。为了解决这个问题，我们提供了一种新颖的自动实时车速计算框架，该框架可以处理来自公共交通摄像头的更多样化的数据，以实现更高的鲁棒性。我们的模型采用新颖的技术通过深度图预测来估计路段的长度。此外，我们的框架能够自动处理现实条件，例如摄像机移动和不同的视频流输入。我们使用基准数据集将我们的模型与该领域三个众所周知的模型进行比较。虽然我们的模型没有在预测性能方面设定新的最先进水平，但其结果在真实的闭路电视视频上具有竞争力。同时，我们的端到端管道提供了更一致的结果、更容易的实施和更好的兼容性。

Analyzing the Efficacy of an LLM-Only Approach for Image-based Document Question Answering
Authors Nidhi Hegde, Sujoy Paul, Gagan Madan, Gaurav Aggarwal
最近的文档问答模型由两个关键组件组成：视觉编码器，用于捕获图像中的布局和视觉元素；以及大型语言模型法学硕士，可帮助将问题与图像结合起来，并用外部世界知识对其进行补充，以生成准确的答案。然而，视觉编码器和语言模型在这些任务中的相对贡献仍不清楚。考虑到指令调整的法学硕士的有效性，这一点尤其有趣，法学硕士对新任务表现出卓越的适应性。为此，我们在这项工作中探讨了以下几个方面 1 仅 LLM 方法在文档问答任务上的功效 2 在文档图像中序列化文本信息并将其直接输入到指令调整的 LLM 的策略，从而绕过了对 LLM 的需求显式视觉编码器 3 对这种方法的可行性进行了彻底的定量分析。我们的综合分析涵盖六个不同的基准数据集，利用不同规模的法学硕士。我们的研究结果表明，完全依赖于法学硕士的策略所产生的结果与一系列数据集的最先进性能相当或接近。

Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time Visual Scene Understanding
Authors Christina Kassab, Matias Mattamala, Lintong Zhang, Maurice Fallon
多功能和自适应语义理解将使自主系统能够理解周围环境并与之交互。现有的固定类别模型限制了室内移动和辅助自主系统的适应性。在这项工作中，我们介绍了 LEXIS，这是一种实时室内同步定位和地图 SLAM 系统，它利用大型语言模型法学硕士的开放词汇性质来创建场景理解和地点识别的统一方法。该方法首先使用视觉惯性里程计构建环境的拓扑 SLAM 图，并将对比语言图像预训练 CLIP 特征嵌入到图节点中。我们使用这种表示形式进行灵活的房间分类和分割，作为以房间为中心的位置识别的基础。这使得闭环搜索能够定向到语义相关的位置。我们提出的系统使用公共、模拟数据和现实世界数据进行评估，涵盖办公室和家庭环境。它成功地对具有不同布局和尺寸的房间进行分类，并且优于最先进的 SOTA。对于位置识别和轨迹估计任务，我们实现了与 SOTA 相同的性能，所有这些任务也都使用相同的预训练模型。

Class Incremental Learning via Likelihood Ratio Based Task Prediction
Authors Haowei Lin, Yijia Shao, Weinan Qian, Ningxin Pan, Yiduo Guo, Bing Liu
课堂增量学习 CIL 是一种具有挑战性的持续学习环境，它按顺序学习一系列任务。每个任务都包含一组独特的类。 CIL 的主要特点是在测试时不为每个测试样本提供任务标识符或任务 id。预测每个测试样本的任务 ID 是一个具有挑战性的问题。一种新兴的理论上合理且有效的方法是基于任务增量学习 TIL 方法，为所有任务的共享网络中的每个任务训练特定于任务的模型来处理遗忘。此方法中每个任务的模型都是分布外的 OOD 检测器，而不是传统的分类器。 OOD 检测器可以执行分布 IND 类预测和 OOD 检测中的任务。 OOD检测能力是每个测试样本推理过程中任务id预测的关键。然而，本文认为，使用传统的 OOD 检测器进行任务 id 预测并不是最优的，因为可以利用附加信息（例如 CIL 中可用的重放数据和学习任务）来设计更好且有原则的任务 id 预测方法。我们将新方法称为基于似然比的 TPLR 任务 ID 预测。

HPCR: Holistic Proxy-based Contrastive Replay for Online Continual Learning
Authors Huiwei Lin, Shanshan Feng, Baoquan Zhang, Xutao Li, Yew soon Ong, Yunming Ye
在线持续学习 OCL 旨在通过在线数据流的单次传递不断学习新数据。它通常遭受灾难性遗忘问题。现有的基于重放的方法通过以基于代理或基于对比的重放方式重放部分旧数据，有效地缓解了这个问题。本文对这两种重播方式进行了综合分析，发现它们可以互补。受这一发现的启发，我们提出了一种新的基于重放的方法，称为基于代理的对比重放PCR，该方法在基于对比的损失中用锚到代理对替换锚到样本对，以减轻遗忘现象。在PCR的基础上，我们进一步开发了一种更先进的方法，称为基于整体代理的对比重放HPCR，它由三个部分组成。对比组件有条件地将锚点与样本对合并到 PCR 中，通过大批量训练学习更细粒度的语义信息。第二个是温度组件，根据温度系数对梯度的影响将温度系数解耦为两部分，并为它们设置不同的值以学习更多新知识。第三个是蒸馏组件，它限制学习过程以保留更多历史知识。

Towards Real-World Test-Time Adaptation: Tri-Net Self-Training with Balanced Normalization
Authors Yongyi Su, Xun Xu, Kui Jia
测试时间适应旨在使源域模型适应推理阶段的测试数据，并在适应看不见的损坏方面取得了成功。然而，在更具挑战性的现实世界场景下，这些尝试可能会失败。现有的工作主要考虑非独立同分布下的现实世界测试时间适应。数据流和连续的域转移。在这项工作中，我们首先用全局级不平衡测试集来补充现有的现实世界 TTA 协议。我们证明，将所有设置组合在一起对现有方法提出了新的挑战。我们认为最先进方法的失败首先是由于不加区别地使标准化层适应不平衡的测试数据造成的。为了弥补这个缺点，我们提出了一个平衡的batchnorm层来在推理阶段替换常规的batchnorm。新的批归一化层能够在不偏向大多数类别的情况下进行调整。自训练 ST 在从未标记数据中学习的成功以及使 ST 适应测试时间的成功进一步启发了我们。然而，单独的 ST 很容易出现过度适应，这是导致连续域转移下性能不佳的原因。因此，我们建议通过使用锚定损失规范模型更新来改进持续领域转移下的自我训练。最终的 TTA 模型称为 TRIBE，建立在具有平衡批归一化层的三网架构之上。我们在代表现实世界 TTA 设置的四个数据集上评估 TRIBE。 TRIBE 在多种评估协议中始终保持最先进的性能。

A Comparative Study of Population-Graph Construction Methods and Graph Neural Networks for Brain Age Regression
Authors Kyriaki Margarita Bintsi, Tamara T. Mueller, Sophie Starck, Vasileios Baltatzis, Alexander Hammers, Daniel Rueckert
受试者的脑年龄和生物脑年龄之间的差异可能是神经退行性疾病的重要生物标志物，因此脑年龄估计在临床环境中至关重要。将多模态信息纳入此估计的一种方法是通过群体图，它结合了各种类型的成像数据并捕获群体内个体之间的关联。在医学成像中，人口图已经显示出有希望的结果，主要用于分类任务。在大多数情况下，图结构是预先定义的并且在训练期间保持静态。然而，提取人口图是一项不平凡的任务，可以显着影响对图结构敏感的图神经网络 GNN 的性能。在这项工作中，我们强调了有意义的图构建和实验不同群体图构建方法的重要性及其对 GNN 大脑年龄估计性能的影响。我们使用同质性度量和图形可视化来获得有关提取的图形结构的有价值的定量和定性见解。对于实验评估，我们利用英国生物银行数据集，该数据集提供了许多成像和非成像表型。我们的结果表明，对图结构高度敏感的架构（例如图卷积网络 GCN 和图注意网络 GAT）在处理低同质性图时遇到困难，而其他架构（例如 GraphSage 和 Chebyshev）在不同的同质性比率上更加稳健。

BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile Screenshot Captioning
Authors Ching Yu Chiang, I Hua Chang, Shih Wei Liao
本研究旨在探索屏幕截图字幕任务的有效调整方法。最近，图像字幕取得了重大进展，但针对移动屏幕字幕任务的研究仍然相对匮乏。当前描述产品屏幕截图中用户行为的数据集和用例明显有限。因此，我们试图对屏幕截图字幕任务的现有模型进行微调。然而，由于图像字幕模型中存在大量参数，对大型预训练模型进行微调可能会占用大量资源，需要大量时间、计算能力和存储空间。为了应对这一挑战，本研究提出了适配器方法的组合，这需要仅调整模型上的附加模块。这些方法最初是为视觉或语言任务而设计的，我们的目的是应用它们来解决屏幕截图字幕中的类似挑战。通过冻结图像描述模型的参数并仅训练与方法相关的权重，可以实现与微调整个模型相当的性能，同时显着减少参数的数量。这项研究首次对屏幕截图字幕任务背景下组合适配器的有效性进行了全面调查。通过我们的实验和分析，本研究旨在为适配器在视觉语言模型中的应用提供有价值的见解，并有助于开发屏幕截图字幕任务的有效调整技术。

Diffusion-based Holistic Texture Rectification and Synthesis
Authors Guoqing Hao, Satoshi Iizuka, Kensho Hara, Edgar Simo Serra, Hirokatsu Kataoka, Kazuhiro Fukui
我们提出了一种新颖的框架，用于纠正自然图像中退化纹理样本中的遮挡和扭曲。传统的纹理合成方法侧重于从原始样本生成纹理，这需要人类精心准备，并且在大多数自然图像中通常无法实现。这些挑战源于自然图像中由于物体表面几何形状的障碍和变化而导致的纹理样本频繁遮挡和扭曲。为了解决这些问题，我们提出了一个框架，可以从自然图像中的退化样本中合成整体纹理，从而扩展了基于样本的纹理合成技术的适用性。我们的框架利用条件潜在扩散模型 LDM 和新型遮挡感知潜在变压器。该潜在变换器不仅可以有效地对 LDM 生成过程所需的部分观察到的样本中的纹理特征进行编码，而且还可以显式捕获具有大遮挡的样本中的长范围依赖性。为了训练我们的模型，我们引入了一种通过应用几何变换和自由形式掩模生成来清洁纹理来生成合成数据的方法。实验结果表明，我们的框架在数量和数量上都显着优于现有方法。此外，我们进行了全面的消融研究，以验证我们提出的框架的不同组成部分。

Volumetric Semantically Consistent 3D Panoptic Mapping
Authors Yang Miao, Iro Armeni, Marc Pollefeys, Daniel Barath
我们引入了一种在线 2D 到 3D 语义实例映射算法，旨在生成适合非结构化环境中自主代理的全面、准确且高效的语义 3D 地图。所提出的方法基于最近算法中使用的体素 TSDF 表示。它引入了在映射过程中集成语义预测置信度的新方法，生成语义和实例一致的 3D 区域。通过基于语义标记和实例细化的图优化实现了进一步的改进。所提出的方法在公共大规模数据集上实现了优于现有技术的准确性，改进了许多广泛使用的指标。

DriveSceneGen: Generating Diverse and Realistic Driving Scenarios from Scratch
Authors Shuo Sun, Zekai Gu, Tianchen Sun, Jiawei Sun, Chengran Yuan, Yuhang Han, Dongen Li, Marcelo H. Ang Jr
大量真实且多样化的交通场景对于自动驾驶系统的开发和验证至关重要。然而，由于数据收集过程中存在诸多困难以及对密集注释的依赖，现实世界的数据集缺乏足够的数量和多样性来支持不断增长的数据需求。这项工作介绍了 DriveSceneGen，这是一种数据驱动的驾驶场景生成方法，可以从现实世界的驾驶数据集中学习并从头开始生成整个动态驾驶场景。 DriveSceneGen 能够生成新颖的驾驶场景，这些场景与现实世界的数据分布保持一致，具有高保真度和多样性。与现实世界数据集相比，5k 生成场景的实验结果突出了生成质量、多样性和可扩展性。

Probabilistic 3D Multi-Object Cooperative Tracking for Autonomous Driving via Differentiable Multi-Sensor Kalman Filter
Authors Hsu kuang Chiu, Chien Yi Wang, Min Hung Chen, Stephen F. Smith
目前最先进的自动驾驶车辆主要依靠每个单独的传感器系统来执行感知任务。这种框架的可靠性可能会受到遮挡或传感器故障的限制。为了解决这个问题，最近的研究建议使用车辆对车辆的 V2V 通信来与其他人共享感知信息。然而，大多数相关工作仅关注协作检测，而使协作跟踪成为尚未开发的研究领域。最近的一些数据集（例如 V2V4Real）提供了 3D 多对象协作跟踪基准。然而，他们提出的方法主要使用协作检测结果作为基于标准单传感器卡尔曼滤波器的跟踪算法的输入。在他们的方法中，可能无法正确估计来自不同联网自动驾驶车辆 CAV 的不同传感器的测量不确定性，以利用基于卡尔曼滤波器的跟踪算法的理论最优性特性。在本文中，我们提出了一种通过可微分多传感器卡尔曼滤波器实现自动驾驶的新型 3D 多目标协作跟踪算法。我们的算法学习估计每次检测的测量不确定性，从而可以更好地利用基于卡尔曼滤波器的跟踪方法的理论特性。

Free Discontinuity Design: With an Application to the Economic Effects of Internet Shutdowns
Authors Florian Gunsilius, David Van Dijcke
治疗分配的阈值可能会产生结果的不连续性，从而揭示因果关系。在许多情况下，例如地理环境，这些阈值是未知的且是多变量的。我们提出了一种非参数方法，通过将回归表面分割成平滑部分和不连续部分来估计由此产生的不连续性。该估计器使用 Mumford Shah 函数的凸松弛，为此我们建立了识别和收敛。

Applications of Sequential Learning for Medical Image Classification
Authors Sohaib Naim, Brian Caffo, Haris I Sair, Craig K Jones

Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix Factorization via Plastic Transformer
Authors Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels, Jerry L. Prince, Georges El Fakhri, Jonghye Woo
舌头复杂的 3D 结构由局部功能单元组成，在言语的产生中起着至关重要的作用。当使用标记的 MRI 进行测量时，这些功能单元表现出内聚位移和派生量，促进复杂的语音产生过程。基于非负矩阵分解的方法已被证明可以通过运动特征来估计功能单元，从而产生一组构建块和相应的权重图。研究权重图和语音声学之间的联系可以为理解语音产生的复杂过程提供重要的见解。为此，在这项工作中，我们利用二维声谱图作为代理表示，并开发一个端到端深度学习框架，用于将权重图转换为其相应的音频波形。我们提出的塑料光变压器 PLT 框架基于定向乘积相对位置偏差和单级空间金字塔池化，从而能够灵活处理可变大小的加权图到固定大小的频谱图，而不会丢失输入信息或维度扩展。此外，我们的 PLT 框架有效地模拟了宽矩阵输入的全局相关性。为了提高使用相对有限的训练样本生成的声谱图的真实性，我们应用具有最大平均差异约束和对抗性训练的成对话语一致性。

CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss
Authors Rakshith Sharma Srinivasa, Jaejin Cho, Chouchang Yang, Yashas Malur Saidutta, Ching Hua Lee, Yilin Shen, Hongxia Jin
本文考虑了跨模态 0 镜头迁移的对比训练，其中一种模态中的预训练模型用于使用成对数据在另一个域中进行表示学习。后一个领域中学习到的模型可以以零样本的方式用于各种任务，类似于最近受到广泛关注的对比语言图像预训练 CLIP 和锁定图像调整 LiT。大多数现有的跨模态表示对齐工作（包括 CLIP 和 LiT）都使用标准对比训练目标，该目标使用一组正例和负例来对齐相似并排斥不相似的训练数据样本。然而，训练示例之间的相似性具有更连续的性质，因此需要更多的非二元处理。为了解决这个问题，我们提出了一种称为连续加权对比损失 CWCL 的新型损失函数，它采用连续的相似性度量。通过 CWCL，我们寻求将一种模态的嵌入空间与另一种模态对齐。由于所提出的损失函数中相似性的连续性质，这些模型优于跨多个模型、数据集和模式的 0 镜头传输的现有方法。

MEMO: Dataset and Methods for Robust Multimodal Retinal Image Registration with Large or Small Vessel Density Differences
Authors Chiao Yi Wang, Faranguisse Kakhi Sadrieh, Yi Ting Shen, Shih En Chen, Sarah Kim, Victoria Chen, Achyut Raghavendra, Dongyi Wang, Osamah Saeedi, Yang Tao
毛细血管中视网膜血流RBF的测量可以为眼部疾病的早期诊断和治疗提供强有力的生物标志物。然而，没有一种单一的方法可以高精度地确定毛细管流速。将红细胞介导的血管造影 EMA 与光学相干断层扫描血管造影 OCTA 相结合有可能实现这一目标，因为 EMA 可以测量视网膜微血管的绝对 2D RBF，而 OCTA 可以提供毛细血管的 3D 结构图像。然而，这两种模式之间的多模式视网膜图像配准在很大程度上仍未被探索。为了填补这一空白，我们建立了 MEMO，这是第一个公共多模态 EMA 和 OCTA 视网膜图像数据集。这些模式之间的多模式视网膜图像配准的一个独特挑战是血管密度 VD 的相对较大差异。为了应对这一挑战，我们提出了一种基于分割的深度学习框架 VDD Reg 和一个新的评估指标 MSD ，尽管血管密度存在差异，但它们仍能提供稳健的结果。 VDD Reg由血管分割模块和配准模块组成。为了训练血管分割模块，我们进一步设计了一个结合监督和无监督损失的两阶段半监督学习框架 LVD Seg。我们证明，对于使用 CF FA 数据集的较小 VD 差异和使用我们的 MEMO 数据集的较大 VD 差异的情况，VDD Reg 在定量和定性方面均优于基线方法。

Effect of roundabout design on the behavior of road users: A case study of roundabouts with application of Unsupervised Machine Learning
Authors Tasnim M. Dwekat, Ayda A. Almsre, Huthaifa I. Ashqar
本研究旨在评估转子的性能并研究人类驾驶员与转子交互的行为。近年来，转子由于其安全性、容量和环境优势，并且为运输和整合提供安全、流畅的车辆流动，在国家之间得到越来越多的使用。事实证明，环形交叉口可以显着降低转弯路口的速度、进入速度，而对速度的影响取决于道路使用者的评级。在我们的研究中，公共汽车、汽车、卡车司机受到特别关注，他们的行为被分为保守型、正常型和攻击性型。预测和识别驾驶员行为是一项重要的挑战。因此，本研究的目的是研究环形交叉口对这些分类器的影响，并开发一种预测环形交叉口道路使用者行为的方法。安全性主要取决于转子的两个固有特征。首先，通过比较收集和处理的数据以对驾驶员行为进行分类和评估，并比较驾驶员公共汽车、小汽车和卡车的速度，驾驶者在穿越环岛时的速度比公共汽车和卡车的速度更适合。我们查看是因为汽车较小，并且转子的所有部件都可以看到。因此，来自四面八方的司机必须放慢速度，以便有更多时间做出反应，并减轻发生事故时的后果。

AiAReSeg: Catheter Detection and Segmentation in Interventional Ultrasound using Transformers
Authors Alex Ranne, Yordanka Velikova, Nassir Navab, Ferdinando Rodriguez y Baena
迄今为止，血管内手术是使用荧光镜检查的黄金标准进行的，该标准使用电离辐射来可视化导管和脉管系统。长时间的透视暴露对患者和临床医生都是有害的，并且可能导致严重的术后后遗症，例如癌症的发展。与此同时，介入超声的使用因其空间占用小、数据采集快和组织对比度图像更高等众所周知的优点而受到欢迎。然而，超声图像很难解释，也很难定位其中的血管、导管和导丝。这项工作提出了一种解决方案，使用最先进的机器学习变压器架构来检测和分割轴向介入超声图像序列中的导管。该网络架构受到 Attention in Attention 机制、时间跟踪网络的启发，并引入了一种新颖的 3D 分割头，可以跨时间执行 3D 反卷积。为了促进这种深度学习网络的训练，我们引入了一种新的数据合成管道，该管道使用基于物理的导管插入模拟，以及卷积射线投射超声模拟器来生成血管内干预的合成超声图像。所提出的方法在保留验证数据集上进行了验证，从而证明了对超声噪声和大范围扫描角度的鲁棒性。它还对从硅基主动脉模型收集的数据进行了测试，从而证明了其从模拟转化为真实的潜力。

Gastro-Intestinal Tract Segmentation Using an Explainable 3D Unet
Authors Kai Li, Jonathan Chan
在使用放射疗法治疗胃肠道癌症时，放射肿瘤科医生的作用是通过 X 射线束向肿瘤施用高剂量的放射线，同时避开胃和肠道。随着 MR Linac 等精确放射治疗技术的出现，肿瘤学家可以直观地看到肿瘤和肠道的日常位置，这些位置可能每天都在变化。在进行放射治疗之前，放射肿瘤科医生必须手动勾勒出胃肠器官的位置，以确定 X 射线束的位置和方向。这是一个耗时且费力的过程，可能会大大延长患者的治疗时间。深度学习 DL 方法可以自动化并加快该过程。然而，目前使用的许多深度神经网络方法都是黑匣子，缺乏可解释性，这使得它们在医疗保健环境中不可信且不切实际。为了解决这个问题，可以纳入称为可解释 AI XAI 的人工智能新兴领域，以提高模型的透明度和可行性。

Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery
Authors Mimo Shirasaka, Tatsuya Matsushima, Soshi Tsunashima, Yuya Ikeda, Aoi Horo, So Ikoma, Chikaha Tsuji, Hikaru Wada, Tsunekazu Omija, Dai Komukai, Yutaka Matsuo Yusuke Iwasawa
通用服务机器人GPSR能够在各种环境下执行多种任务，需要系统具有较高的通用性以及对任务和环境的适应性。在本文中，我们首先基于多个基础模型为 2023 年 RoboCup Home 全球比赛开发了顶级 GPSR 系统。该系统既可推广到变化，又可通过提示每个模型进行自适应。然后，通过分析所开发系统的性能，我们发现在更现实的GPSR应用设置中信息不足、计划生成不正确和计划执行失败三种类型的故障。然后，我们提出自我恢复提示管道，它探索必要的信息并修改其提示以从故障中恢复。我们通过实验证实，具有自我恢复机制的系统可以通过解决各种故障情况来完成任务。

Unveiling Fairness Biases in Deep Learning-Based Brain MRI Reconstruction
Authors Yuning Du, Yuyang Xue, Rohan Dharmakumar, Sotirios A. Tsaftaris
深度学习深度学习重建，尤其是 MRI 的重建，提高了图像保真度并减少了采集时间。在神经成像中，深度学习方法可以从欠采样数据重建高质量图像。然而，必须考虑深度学习算法的公平性，特别是在人口统计特征方面。这项研究首次对基于深度学习的脑部 MRI 重建模型进行了公平性分析。该模型利用 U Net 架构进行图像重建，并通过实施基线经验风险最小化 ERM 和再平衡策略来探索不公平的存在和来源。使用图像重建指标评估模型性能。我们的研究结果揭示了性别和年龄亚组之间统计上显着的表现偏差。令人惊讶的是，数据不平衡和训练歧视并不是偏见的主要来源。

Domain-Guided Conditional Diffusion Model for Unsupervised Domain Adaptation
Authors Yulong Zhang, Shuhao Chen, Weisen Jiang, Yu Zhang, Jiangang Lu, James T. Kwok
有限的可移植性阻碍了深度学习模型应用于新应用场景时的性能。最近，无监督域适应 UDA 通过学习域不变特征在解决这个问题方面取得了重大进展。然而，现有UDA方法的性能受到大域偏移和有限目标域数据的限制。为了缓解这些问题，我们提出 DomAin 引导条件扩散模型 DACDM 来为目标域生成高保真度和多样性样本。在所提出的DACDM中，通过引入类信息，可以控制生成样本的标签，并且在DACDM中进一步引入域分类器来指导目标域生成的样本。生成的样本帮助现有的UDA方法更容易地从源域转移到目标域，从而提高转移性能。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com