【AI视野·今日CV 计算机视觉论文速览第286期】Tue, 9 Jan 2024_fully attentional networks with self-emerging toke-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/135540927

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 9 Jan 2024
Totally 121 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning
Authors Chen Zhao, Shuming Liu, Karttikeya Mangalam, Guocheng Qian, Fatimah Zohra, Abdulmohsen Alghannam, Jitendra Malik, Bernard Ghanem
大型预训练模型在现代计算机视觉任务中变得越来越重要。这些模型通常通过端到端微调用于下游任务，这对于具有高分辨率数据的任务来说是高度内存密集型的，例如视频理解、小物体检测和点云分析。在本文中，我们提出了动态可逆双残差网络（Dynamic Reversible Dual Residual Networks），或称 Dr 2 Net，这是一种新颖的网络架构系列，可作为代理网络来微调预训练模型，同时显着减少内存消耗。 Dr 2 Net 包含两种类型的残差连接，一种保持预训练模型中的残差结构，另一种使网络可逆。由于其可逆性，可以从输出重建的中间激活在训练期间从内存中清除。我们分别在任一类型的残差连接上使用两个系数，并引入动态训练策略，将预训练模型无缝过渡到具有更高数值精度的可逆网络。

AGG: Amortized Generative 3D Gaussians for Single Image to 3D
Authors Dejia Xu, Ye Yuan, Morteza Mardani, Sifei Liu, Jiaming Song, Zhangyang Wang, Arash Vahdat
鉴于对自动 3D 内容创建管道的需求不断增长，人们已经研究了各种 3D 表示形式，以从单个图像生成 3D 对象。由于其卓越的渲染效率，基于 3D 高斯喷射的模型最近在 3D 重建和生成方面都表现出色。用于图像到 3D 生成的 3D 高斯分布方法通常是基于优化的，需要许多计算成本高昂的分数蒸馏步骤。为了克服这些挑战，我们引入了摊销生成 3D 高斯框架 AGG，它可以立即从单个图像生成 3D 高斯，从而无需对每个实例进行优化。 AGG 利用中间混合表示，分解 3D 高斯位置和其他外观属性的生成，以进行联合优化。此外，我们提出了一个级联管道，首先生成 3D 数据的粗略表示，然后使用 3D 高斯超分辨率模块对其进行上采样。我们的方法根据现有的基于优化的 3D 高斯框架和利用其他 3D 表示的基于采样的管道进行评估，其中 AGG 在定性和定量上都展示了有竞争力的生成能力，同时速度快了几个数量级。

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation
Authors Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein
尽管文本到 3D 生成方法最近取得了进展，但仍然明显缺乏可靠的评估指标。现有的指标通常只关注一个标准，例如资产与输入文本的对齐程度。这些指标缺乏推广到不同评估标准的灵活性，并且可能与人类偏好不太相符。进行用户偏好研究是一种替代方案，可以提供适应性和人性化的结果。然而，扩展用户研究的成本可能非常昂贵。本文提出了一种用于文本到 3D 生成模型的自动、多功能且与人类一致的评估指标。为此，我们首先使用 GPT 4V 开发一个提示生成器来生成评估提示，作为将文本与 3D 模型进行比较的输入。我们进一步设计了一种方法，指示 GPT 4V 根据用户定义的标准比较两个 3D 资产。最后，我们使用这些成对比较结果来为这些模型分配 Elo 评级。

Fun with Flags: Robust Principal Directions via Flag Manifolds
Authors Nathan Mankovich, Gustau Camps Valls, Tolga Birdal
主成分分析 PCA 及其对流形和离群污染数据的扩展，在计算机视觉和机器学习中是不可或缺的。在这项工作中，我们提出了 PCA 及其变体的统一形式，并引入了基于线性子空间标志的框架，即维度递增的嵌套线性子空间的层次结构，它不仅允许通用实现，而且还产生新颖的之前没有探索过的变体。我们首先概括传统的 PCA 方法，这些方法可以最大化方差或最小化重建误差。我们通过考虑异常值和数据流形来扩展这些解释，以开发一系列新的降维算法。为了设计一种通用的计算方法，我们将稳健的对偶形式的 PCA 重新设计为标志流形上的优化问题。然后，我们将主测地线分析切线 PCA 的切线空间近似集成到这个基于标志的框架中，创建新颖的鲁棒和双测地线 PCA 变体。这里引入的标记提供了显着的灵活性，可以通过特定标记类型识别更多的算法变体。最后但并非最不重要的一点是，我们为这些使用 Stiefel 流形的标志公式提出了一个有效的收敛求解器。

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
近年来，研究人员将音频和视频信号结合起来，以应对视觉提示无法很好地表示或捕获动作的挑战。然而，如何有效利用这两种模式仍在研究中。在这项工作中，我们开发了一种利用分层表示学习的多尺度多模态 Transformer MMT。具体地，MMT由新颖的多尺度音频Transformer MAT和多尺度视频Transformer 43组成。为了学习有区别的跨模态融合，我们进一步设计了多模态监督对比目标，称为音频视频对比损失 AVC 和模内对比损失 IMC，它们可以稳健地对齐两种模态。在没有外部训练数据的情况下，MMT 在 Kinetics Sounds 和 VGGSound 的 top 1 准确度方面比之前最先进的方法高出 7.3 和 2.1。

MS-DETR: Efficient DETR Training with Mixed Supervision
Authors Chuyang Zhao, Yifan Sun, Wenhao Wang, Qiang Chen, Errui Ding, Yi Yang, Jingdong Wang
DETR通过基于图像特征迭代生成多个候选对象并为每个地面实况对象提升一个候选对象来完成端到端对象检测。

Multi-scale attention-based instance segmentation for measuring crystals with large size variation
Authors Theresa Neubauer, Astrid Berg, Maria Wimmer, Dimitrios Lenis, David Major, Philip Matthias Winter, Gaia Romana De Paolis, Johannes Novotny, Daniel L ftner, Katja Reinharter, Katja B hler
在高分辨率图像中对晶体进行定量测量可以深入了解潜在的材料特性。深度学习在基于视觉的自动晶体尺寸测量方面取得了巨大进展，但当前的实例分割方法在处理晶体尺寸变化较大或难以检测晶体边界的图像时达到了极限。即使很小的图像分割错误，例如不正确地融合或分离的片段，也会显着降低测量结果的准确性。我们建议使用基于实例的分割方法，而不是改进现有的像素边界分割方法，该方法提供更稳健的分割结果以提高测量精度。我们的新颖方法通过尺寸感知多尺度注意模块增强了流程图。注意力模块自适应地融合来自多个尺度的信息，并关注每个分割图像区域最相关的尺度。我们证明，我们提出的注意力融合策略优于最先进的实例和边界分割方法，以及多尺度预测的简单平均融合。

D3PRefiner: A Diffusion-based Denoise Method for 3D Human Pose Refinement
Authors Danqi Yan, Qing Gao, Yuepeng Qian, Xinxing Chen, Chenglong Fu, Yuquan Leng
使用单目相机进行三维 3D 人体姿势估计因其易于实施且日常生活中可获得的数据丰富而受到越来越多的关注。然而，由于图像固有的深度模糊性，现有的基于单目相机的3D姿态估计方法的精度仍然不能令人满意，并且估计的3D姿态通常包含大量噪声。通过观察该噪声的直方图，我们发现噪声的每个维度都遵循一定的分布，这表明神经网络有可能学习噪声姿势和地面真实姿势之间的映射。在这项工作中，为了获得更准确的 3D 姿态，提出了一种基于扩散的 3D 姿态细化器 D3PRefiner 来细化任何现有 3D 姿态估计器的输出。我们首先引入条件多元高斯分布来对噪声 3D 姿势的分布进行建模，使用配对 2D 姿势和噪声 3D 姿势作为条件来实现更高的精度。此外，我们利用当前扩散模型的架构将噪声 3D 姿势的分布转换为地面真实 3D 姿势。为了评估所提出方法的有效性，使用两种最先进的序列到序列3D姿势估计器作为基本3D姿势估计模型，并在不同类型的2D姿势和不同长度的输入序列上评估所提出的方法。

RoboFusion: Towards Robust Multi-Modal 3D obiect Detection via SAM
Authors Ziying Song, Guoxing Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Caiyan Jia, Feiyang Jia, Li Wang
多模态 3D 物体检测器致力于探索用于自动驾驶 AD 的安全可靠的感知系统。然而，虽然在干净的基准数据集上实现了最先进的 SOTA 性能，但他们往往忽视了现实世界环境的复杂性和恶劣条件。同时，随着视觉基础模型VFM的出现，为提高自动驾驶中多模态3D物体检测的鲁棒性和泛化性带来了机遇和挑战。因此，我们提出了 RoboFusion，这是一个强大的框架，利用 SAM 等 VFM 来解决分布外的 OOD 噪声场景。我们首先将原始 SAM 改编为自动驾驶场景，名为 SAM AD。为了将 SAM 或 SAM AD 与多模态方法对齐，我们引入 AD FPN 对 SAM 提取的图像特征进行上采样。我们采用小波分解对深度引导图像进行去噪，以进一步降低噪声和天气干扰。最后，我们采用自注意力机制来自适应地重新加权融合特征，增强信息特征，同时抑制多余的噪声。总之，我们的 RoboFusion 通过利用 VFM 的泛化性和鲁棒性逐渐降低噪声，从而增强多模态 3D 对象检测的弹性。

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering
Authors Yueqian Wang, Yuxuan Wang, Kai Chen, Dongyan Zhao
最近我们见证了视频问答模型的快速发展。然而，大多数模型只能在时间推理方面处理简单的视频，并且在回答长且信息丰富的视频的时间推理问题时，其性能往往会下降。为了解决这个问题，我们提出了 STAIR，一种具有可审计中间结果的时空推理模型，用于视频问答。 STAIR 是一个神经模块网络，它包含一个程序生成器，用于将给定问题分解为多个子任务的分层组合，以及一组轻量级神经模块来完成每个子任务。尽管神经模块网络已经在图像文本任务上得到了广泛的研究，但将它们应用于视频并不是一件简单的任务，因为视频推理需要不同的能力。在本文中，我们定义了一组用于视频问答的基本视频文本子任务，并设计了一组轻量级模块来完成它们。与大多数先前的工作不同，STAIR 的模块返回特定于其意图的中间输出，而不是总是返回注意力图，这使得更容易解释和与预先训练的模型进行协作。我们还引入了中间监督，使这些中间输出更加准确。我们在不同设置下对多个视频问答数据集进行了广泛的实验，以展示 STAIR 的性能、可解释性、与预训练模型的兼容性以及程序注释不可用时的适用性。

A Survey on 3D Gaussian Splatting
Authors Guikun Chen, Wenguan Wang
3D 高斯喷射 3D GS 最近已成为显式辐射场和计算机图形领域的一项变革性技术。这种创新方法的特点是利用了数百万个 3D 高斯函数，它与神经辐射场 NeRF 方法有很大的不同，后者主要使用隐式的、基于坐标的模型将空间坐标映射到像素值。 3D GS 凭借其明确的场景表示和可微的渲染算法，不仅保证了实时渲染功能，而且还引入了前所未有的控制和可编辑性水平。这使得 3D GS 成为下一代 3D 重建和表示的潜在游戏规则改变者。在本文中，我们首次系统概述了 3D GS 领域的最新发展和关键贡献。我们首先详细探讨 3D GS 出现背后的基本原理和驱动力，为理解其重要性奠定基础。我们讨论的一个焦点是 3D GS 的实际适用性。通过促进实时性能，3D GS 开辟了从虚拟现实到交互式媒体等众多应用程序。对此进行了补充，对领先的 3D GS 模型进行了比较分析，并在各种基准任务中进行了评估，以突出其性能和实用性。该调查最后确定了当前的挑战并提出了该领域未来研究的潜在途径。

A New Dataset and a Distractor-Aware Architecture for Transparent Object Tracking
Authors Alan Lukezic, Ziga Trojer, Jiri Matas, Matej Kristan
与不透明物体相比，现代跟踪器的性能在透明物体上显着下降。这主要是由于两个不同的原因。透明对象的独特之处在于它们的外观直接受背景影响。此外，透明物体场景通常包含许多视觉上相似的物体干扰物，这通常会导致跟踪失败。然而，现代跟踪架构的开发需要大量的训练集，而透明对象跟踪中不存在这种情况。我们针对上述问题提出了两项贡献。我们提出了第一个透明对象跟踪训练数据集 Trans2k，它由超过 2k 个序列组成，总共有 104,343 个图像，由边界框和分割掩模注释。在此数据集上训练的标准跟踪器持续改进高达 16 。我们的第二个贡献是一种新的干扰感知透明对象跟踪器 DiTra，它将定位精度和目标识别视为单独的任务，并通过新颖的架构来实现它们。

Gramformer: Learning Crowd Counting via Graph-Modulated Transformer
Authors Hui Lin, Zhiheng Ma, Xiaopeng Hong, Qinnan Shangguan, Deyu Meng
Transformer 在最近的人群统计工作中很受欢迎，因为它打破了传统 CNN 有限的感受野。然而，由于人群图像总是包含大量相似的斑块，因此 Transformer 中的自注意力机制往往会找到一种同质化的解决方案，其中几乎所有斑块的注意力图都是相同的。在本文中，我们通过提出 Gramformer 一种图调制变压器来解决这个问题，通过根据两种不同类型的图分别调整注意力和输入节点特征来增强网络。首先，针对不同的注意力图提出了注意力图来关注补充信息。该图建立在补丁之间的差异之上，以反相似的方式调节注意力。其次，提出了基于特征的中心性编码来发现节点的中心性位置或重要性。我们使用提出的中心性指数方案对它们进行编码，以调整节点特征和相似性关系。对四个具有挑战性的人群计数数据集的广泛实验验证了所提出方法的竞争力。

TIER: Text and Image Encoder-based Regression for AIGC Image Quality Assessment
Authors Jiquan Yuan, Xinyan Cao, Jinming Che, Qinyuan Wang, Sen Liang, Wei Ren, Jinlong Lin, Xixin Cao
最近，AIGC图像质量评估AIGCIQA，旨在从人类感知的角度评估人工智能生成图像的质量，已成为计算机视觉领域的一个新课题。与常见的图像质量评估任务不同，在 AIGCIQA 任务中，图像通常由生成模型使用文本提示生成。过去几年，我们为推进 AGCIQA 做出了巨大努力。然而，大多数现有的 AIGCIQA 方法直接从各个生成的图像回归预测分数，忽略了这些图像的文本提示中包含的信息。这种疏忽部分限制了这些 AIGCIQA 方法的性能。为了解决这个问题，我们提出了一个基于文本和图像编码器的回归 TIER 框架。具体来说，我们将生成的图像及其相应的文本提示作为输入进行处理，利用文本编码器和图像编码器分别从这些文本提示和生成的图像中提取特征。为了证明我们提出的 TIER 方法的有效性，我们在几个主流 AIGCIQA 数据库上进行了广泛的实验，包括 AGIQA 1K、AGIQA 3K 和 AIGCIQA2023。

Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex
Authors Shuxiao Ma, Linyuan Wang, Senbao Hou, Bin Yan
最近，GPT 4 等预训练大型语言模型 LLM 的流行度激增，席卷了整个自然语言处理 NLP 和计算机视觉 CV 社区。这些法学硕士展示了先进的多模式理解能力，并在各种基准测试中展现了强劲的表现。法学硕士已经开始体现通用人工智能的特征，它为增强视觉编码模型中的类脑特征提供了重要指导。因此，本文提出了一种与法学硕士相结合的新的多模式训练范式，用于编码视觉皮层中的功能磁共振成像活动。基于这个范式，我们在 fMRI 数据中训练了一个编码模型，名为 LLM 视觉编码模型 LLM VEM 。具体来说，我们利用LLM miniGPT4为所有刺激图像生成描述性文本，形成高质量的文本描述集。此外，我们使用预先训练的文本编码器 CLIP 来处理这些详细描述，获得文本嵌入特征。接下来，我们使用对比度损失函数来最小化图像嵌入特征和文本嵌入特征之间的距离，以完成刺激图像和文本信息的对齐操作。在预训练的LLM的帮助下，这个对齐过程有助于更好地学习视觉编码模型，从而获得更高的精度。

UFO: Unidentified Foreground Object Detection in 3D Point Cloud
Authors Hyunjun Choi, Hawook Jeong, Jin Young Choi
在本文中，我们提出了 3D 点云中未知前景物体 UFO 检测的新问题，这是野外自动驾驶的一项关键技术。 UFO 检测具有挑战性，因为现有 3D 物体检测器在 3D 定位和分布外 OOD 检测方面都遇到了极其严峻的挑战。为了应对这些挑战，我们提出了一个新的 UFO 检测框架，包括三项任务评估协议、方法和基准。该评估包括一种衡量我们目标绩效的新方法，即 UFO 的定位和 OOD 检测。该方法包括提高我们目标绩效的实用技术。该基准由 KITTI Misc 基准和我们用于建模更多样化的 UFO 的附加综合基准组成。

Fully Attentional Networks with Self-emerging Token Labeling
Authors Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez
最近的研究表明，Vision Transformers ViT 对于分发外场景具有很强的鲁棒性。特别是，全注意力网络 FAN（ViT 主干系列）已经实现了最先进的鲁棒性。在本文中，我们重新审视 FAN 模型，并使用自行出现的标记标记 STL 框架改进其预训练。我们的方法包含一个两阶段的训练框架。具体来说，我们首先训练 FAN 令牌标记器 FAN TL 来生成语义上有意义的补丁令牌标签，然后是使用令牌标签和原始类标签的 FAN 学生模型训练阶段。利用所提出的 STL 框架，我们基于 FAN L Hybrid 77.3M 参数的最佳模型在 ImageNet 1K 和 ImageNet C 上实现了 84.8 Top 1 精度和 42.1 mCE，并为 ImageNet A 46.1 和 ImageNet R 56.6 设定了新的技术水平，而无需使用额外的数据，明显优于原始 FAN 对应项。所提出的框架还展示了语义分割等下游任务的性能显着增强，与对应模型相比，鲁棒性提高了 1.7 倍。

WidthFormer: Toward Efficient Transformer-based BEV View Transformation
Authors Chenhongyi Yang, Tianwei Lin, Lichao Huang, Elliot J. Crowley
在这项工作中，我们提出了 WidthFormer，这是一种为实时自动驾驶应用量身定制的基于变压器的鸟瞰 BEV 3D 检测方法。 WidthFormer 计算高效、稳健，不需要任何特殊的工程工作即可部署。在这项工作中，我们提出了一种新颖的 3D 位置编码机制，能够准确封装 3D 几何信息，这使得我们的模型能够仅使用单个 Transformer 解码器层生成高质量的 BEV 表示。这种机制对于现有的稀疏 3D 物体检测器也有好处。受最近提出的工作的启发，我们通过在用作注意键和值时垂直压缩图像特征来进一步提高模型的效率。我们还引入了两个模块来补偿由于特征压缩而导致的潜在信息丢失。对广泛使用的 nuScenes 3D 对象检测基准的实验评估表明，我们的方法在不同的 3D 检测架构中优于以前的方法。更重要的是，我们的模型非常高效。例如，当使用 256 乘以 704 的输入图像时，它在 NVIDIA 3090 GPU 上实现了 1.5 毫秒的延迟。此外，WidthFormer 对不同程度的相机扰动也表现出很强的鲁棒性。我们的研究为在现实世界、复杂的道路环境中部署纯电动汽车改造方法提供了宝贵的见解。

Limitations of Data-Driven Spectral Reconstruction -- An Optics-Aware Analysis
Authors Qiang Fu, Matheus Souza, Eunsue Choi, Suhyun Shin, Seung Hwan Baek, Wolfgang Heidrich
高光谱成像使计算机视觉系统具有通过记录材料的光谱特征来识别材料的独特能力。

A multimodal gesture recognition dataset for desktop human-computer interaction
Authors Qi Wang, Fengchao Zhu, Guangming Zhu, Liang Zhang, Ning Li, Eryang Gao
手势识别是自然高效的人机交互技术不可或缺的组成部分，特别是在桌面级应用程序中，它可以显着提高人们的生产力。然而，当前的手势识别社区缺乏适合轻量级手势捕获设备的桌面级顶视图透视数据集。在本研究中，我们建立了一个名为 GR4DHCI 的数据集。该数据集的独特之处在于其固有的自然性、直观特征和多样性。其主要目的是作为开发桌面级便携式应用程序的宝贵资源。 GR4DHCI 包含 7,000 多个手势样本以及立体红外和骨骼模式的总共 382,447 帧。我们还通过将 27 个不同的手部位置合并到数据集中来解决桌面交互期间手部位置的差异。基于GR4DHCI数据集，我们进行了一系列实验研究，结果表明本文提出的细粒度分类块可以提高模型的识别精度。

FM-AE: Frequency-masked Multimodal Autoencoder for Zinc Electrolysis Plate Contact Abnormality Detection
Authors Canzong Zhou, Can Zhou, Hongqiu Zhu, Tianhao Liu
锌电解是锌冶炼的关键工序之一，保持锌电解稳定运行是保证生产效率和产品质量的重要因素。然而，锌电解阴极和阳极之间的接触不良是导致生产效率降低和电解槽损坏的常见问题。因此，在线监测板材的接触状态对于保证生产质量和效率至关重要。为了解决这个问题，我们提出了一种端到端网络，即频率屏蔽多模态自动编码器 FM AE 。该方法以电池电压信号和红外图像信息为输入，通过自动编码，将两种特征融合在一起，并通过级联检测器预测极板的不良接触状态。

MvKSR: Multi-view Knowledge-guided Scene Recovery for Hazy and Rainy Degradation
Authors Dong Yang, Wenyu Xu, Yuxu Lu, Yuan Gao, Jingming Zhang, Yu Guo
高质量成像对于交通、工业等领域的安全监管和智能部署至关重要。它可以对操作进行精确、详细的监控，有利于及时发现潜在危险并进行高效管理。然而，恶劣的天气条件，例如大气雾霾和降水，会对图像质量产生重大影响。当大气中含有浓雾或水滴时，入射光会发生散射，导致捕获的图像质量下降。这种退化以图像模糊和对比度降低的形式表现出来，增加了智能成像系统 IIS 做出错误评估和解释的可能性。为了解决在雾霾和雨天条件下恢复退化图像的挑战，本文提出了一种新颖的多视图知识引导场景恢复网络，称为 MvKSR 。具体来说，对退化图像进行引导滤波以分离高低频分量。随后，使用基于解码器的多视图特征粗提取模块MCE从退化图像的不同视图中粗提取特征。多视图特征精细融合模块MFF将通过不同视图下的混合监督来学习和推断退化图像的恢复。此外，我们建议使用多孔残差块来处理雾蒙蒙的雨天混合场景中的全局恢复和局部修复。

Monitoring water contaminants in coastal areas through ML algorithms leveraging atmospherically corrected Sentinel-2 data
Authors Francesca Razzano, Francesco Mauro, Pietro Di Stasio, Gabriele Meoni, Marco Esposito, Gilda Schirinzi, Silvia Liberata Ullo
监测水污染物对于确保公众健康和环境福祉至关重要。浊度是一个关键参数，造成了影响水质的重大问题。其准确评估对于保护生态系统和人类消费至关重要，需要认真关注并采取行动。为此，我们的研究开创了一种监测浊度污染物的新方法，将 CatBoost 机器学习 ML 与 Sentinel 2 Level 2A 的高分辨率数据相集成。传统方法是劳动密集型的，而 CatBoost 提供了一种高效的解决方案，在预测准确性方面表现出色。我们的研究通过 Google Earth Engine GEE 利用经过大气校正的 Sentinel 2 数据，有助于实现可扩展且精确的浊度监测。来自香港污染物监测站的特定表格数据集丰富了我们的研究，提供了特定区域的见解。

Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion
Authors Minglong Xue, Jinhong He, Yanyi He, Zhipu Liu, Wenhai Wang, Mingliang Zhou
低光图像增强技术已经取得了显着进步，但不稳定的图像质量恢复和不令人满意的视觉感知仍然是重大挑战。为了解决这些问题，我们提出了一种新颖且鲁棒的微光图像增强方法，通过 CLIP 傅立叶引导小波扩散（简称 CFWD）。具体来说，我们设计了一个基于小波变换的频域多尺度视觉语言的引导网络，以迭代地实现有效的图像增强。此外，我们结合傅里叶变换在细节感知方面的优势，构建了具有显着感知能力的混合频域空间HFDPM。该操作引导小波扩散来恢复图像的细粒度结构并避免多样性混乱。对公开的现实世界基准进行的广泛的定量和定性实验表明，我们的方法优于现有的最先进方法，并且更好地再现了与正常图像相似的图像。

Identifying Important Group of Pixels using Interactions
Authors Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera
为了更好地理解图像分类器的行为，可视化单个像素对模型预测的贡献非常有用。在本研究中，我们提出了一种方法，MoXI textbf Mo del e textbf X planation by textbf Interactions，该方法可以高效、准确地识别具有高预测置信度的一组像素。该方法采用博弈论概念、Shapley 值和交互作用，考虑到单个像素的影响以及像素对模型置信度的协同影响。理论分析和实验表明，与广泛使用的使用 Grad CAM、Attention rollout 和 Shapley 值的可视化方法相比，我们的方法可以更好地识别对模型输出贡献较大的像素。

NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
Authors Casimir Feldmann, Niall Siegenheim, Nikolas Hars, Lovro Rabuzin, Mert Ertugrul, Luca Wolfart, Marc Pollefeys, Zuria Bauer, Martin R. Oswald
单目深度估计 MDE 模型的能力受到足够且多样化的数据集的可用性的限制。对于自动驾驶的 MDE 模型，捕获的数据轨迹的线性会加剧这个问题。我们提出了一种基于 NeRF 的数据增强管道，将具有更多样化观察方向的合成数据引入训练数据集中，并展示我们的方法对模型性能和鲁棒性的好处。我们的数据增强管道（我们称之为 NeRFmentation）在数据集中的每个场景上训练 NeRF，根据相关指标过滤掉低于标准的 NeRF，并使用它们生成从新观看方向捕获的合成 RGB D 图像。在这项工作中，我们将我们的技术与三种最先进的 MDE 架构结合应用在流行的自动驾驶数据集 KITTI 上，增强了其 Eigen split 的训练集。

InvariantOODG: Learning Invariant Features of Point Clouds for Out-of-Distribution Generalization
Authors Zhimin Zhang, Xiang Gao, Wei Hu
3D 传感器的便利性导致 3D 点云在各种应用中的使用增加。然而，采集设备或场景的差异导致点云数据分布的发散，这就需要点云表示学习方法具有良好的泛化性。虽然大多数以前的方法依赖于域适应，这涉及对目标域数据进行微调预训练模型，但这在目标域数据可能不可用的现实场景中可能并不总是可行。为了解决这个问题，我们提出了 InvariantOODG，它使用两个分支网络从原始点云和增强点云中提取局部到全局特征来学习不同分布的点云之间的不变性。具体来说，为了增强点云的局部特征学习，我们定义了一组可学习的锚点来定位最有用的局部区域，并定义了两种类型的变换来增强输入点云。

3D-SSGAN: Lifting 2D Semantics for 3D-Aware Compositional Portrait Synthesis
Authors Ruiqi Liu, Peng Zheng, Ye Wang, Rui Ma
现有的 3D 感知肖像合成方法可以生成令人印象深刻的高质量图像，同时保持强大的 3D 一致性。然而，它们中的大多数不能支持对合成图像的细粒度部分级别控制。相反，一些基于 GAN 的 2D 肖像合成方法可以实现面部区域的清晰解开，但由于缺乏 3D 建模能力，无法保持视图一致性。为了解决这些问题，我们提出了 3D SSGAN，这是一种用于 3D 感知构图图像合成的新颖框架。首先，一个简单而有效的深度引导 2D 到 3D 提升模块将生成的 2D 零件特征和语义映射到 3D。然后，利用具有新颖的 3D 感知语义掩模渲染器的体积渲染器来生成合成的面部特征和相应的掩模。整个框架通过区分真实和合成的 2D 图像及其语义掩模进行端到端训练。

Color-$S^{4}L$: Self-supervised Semi-supervised Learning with Image Colorization
Authors Hanxiao Chen
这项工作通过集成几个有效的自监督借口任务来解决半监督图像分类任务的问题。与半监督学习中广泛使用的一致性正则化不同，我们探索了一种新颖的自监督半监督学习框架 Color S 4 L，特别是图像着色代理任务，并深入评估了这种特殊管道中各种网络架构的性能。

Flying Bird Object Detection Algorithm in Surveillance Video
Authors Ziwei Sun, Zexi Hua, Hengchao Li, Yan Li
针对监控视频中飞鸟目标单帧图像特征不明显、大多数情况下尺寸较小、不对称等特点，提出一种用于监控视频的飞鸟目标检测方法FBOD SV。首先，设计了一个新的特征聚合模块——Correlation Attention Feature Aggregation Co Attention FA模块，根据鸟对象在多个连续帧图像上的相关性来聚合飞鸟对象的特征。其次，设计了先下采样后上采样的飞鸟目标检测网络FBOD Net，该网络使用融合精细空间信息和大感受野信息的大特征层来检测特殊的多尺度（大多是小尺度）鸟类目标。最后，将SimOTA动态标签分配方法应用于One Category物体检测，并提出SimOTA OC动态标签策略，解决不规则飞鸟物体带来的标签分配难题。本文通过牵引变电站飞鸟物体监控视频实验数据集验证了算法的性能。

Flowmind2Digital: The First Comprehensive Flowmind Recognition and Conversion Approach
Authors Huanyu Liu, Jianfeng Cai, Tingjia Zhang, Hongsheng Li, Siyuan Wang, Guangming Zhu, Syed Afaq Ali Shah, Mohammed Bennamoun, Liang Zhang
流程图和思维导图（统称为 flowmind）在日常活动中至关重要，手绘版本有助于实时协作。然而，越来越需要将它们数字化以进行高效处理。自动转换方法对于克服手动转换挑战至关重要。现有的草图识别方法在实际情况中面临局限性，即针对特定领域且缺乏数字转换步骤。我们的论文介绍了 Flowmind2digital 方法和 hdFlowmind 数据集来应对这些挑战。 Flowmind2digital 利用神经网络和关键点检测，在我们的数据集上达到了创纪录的 87.3 准确率，比之前的方法高出 11.9 。 hdFlowmind 数据集包含 22 个场景中的 1,776 个带注释的 flowmind，其性能优于现有数据集。

FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring
Authors Geunhyuk Youk, Jihyong Oh, Munchurl Kim
我们提出了一种视频超分辨率和去模糊的联合学习方案，称为 VSRDB，用于从模糊的低分辨率 LR 视频中恢复干净的高分辨率 HR 视频。与单一恢复问题相比，这种联合恢复问题引起的关注要少得多。在本文中，我们提出了一种新颖的流引导动态过滤 FGDF 和多注意力 FRMA 迭代特征细化，它构成了我们的 VSRDB 框架，表示为 FMA Net。具体来说，我们提出的 FGDF 能够精确估计时空变异退化和恢复内核，这些内核通过复杂的运动表示学习了解运动轨迹。与传统的动态过滤相比，FGDF 使 FMA Net 能够有效地处理进入 VSRDB 的大运动。此外，堆叠的 FRMA 块使用我们新颖的时间锚点 TA 损失进行训练，可以临时锚定和锐化特征，通过迭代更新以精细的方式细化特征。大量实验证明了所提出的 FMA Net 在定量和定性质量方面均优于最先进的方法。

Sur2f: A Hybrid Representation for High-Quality and Efficient Surface Reconstruction from Multi-view Images
Authors Zhangjin Huang, Zhihao Liang, Haojie Zhang, Yangkai Lin, Kui Jia
多视点表面重建是 3D 视觉研究中的一个不适定的逆问题。它涉及使用适当的表面表示对几何形状和外观进行建模。大多数现有方法要么依赖于显式网格，使用网格的表面渲染进行重建，要么依赖于隐式场函数，使用场的体渲染进行重建。这两种表述其实各有各的优点。在这项工作中，我们提出了一种新的混合表示，称为 Sur2f，旨在以互补的方式更好地从两种表示中受益。从技术上讲，我们学习隐式符号距离场和显式代理表面 Sur2f 网格的两个并行流，并使用共享的神经着色器统一隐式符号距离函数 SDF 的体积渲染和代理网格的表面渲染，统一着色促进了它们的性能。收敛到相同的下表面。我们通过用隐式 SDF 导出的函数驱动代理网格的变形来同步代理网格的学习。此外，同步代理网格可以实现表面引导体积采样，从而大大提高体积渲染中每条光线的采样效率。

GloTSFormer: Global Video Text Spotting Transformer
Authors Han Wang, Yanjie Wang, Yang Li, Can Huang
视频文本识别 VTS 是一项基本视觉任务，旨在预测视频中文本的轨迹和内容。以前的工作通常进行局部关联并应用基于 IoU 的距离和复杂的后处理程序来提高性能，忽略了 VTS 中丰富的时间信息和形态特征。在本文中，我们提出了一种新颖的全局视频文本识别转换器 GloTSFormer，将跟踪问题建模为全局关联，并利用高斯 Wasserstein 距离来指导帧之间的形态相关性。我们的主要贡献可以概括为三个方面。 1.我们提出了一种基于 Transformer 的 VTS 全局跟踪方法 GloTSFormer，并同时关联多个帧。 2.我们引入基于 Wasserstein 距离的方法来进行帧之间的位置关联。 3.我们对公共数据集进行了广泛的实验。

Primitive Geometry Segment Pre-training for 3D Medical Image Segmentation
Authors Ryu Tadokoro, Ryosuke Yamada, Kodai Nakashima, Ryo Nakamura, Hirokatsu Kataoka
3D 医学图像数据集的构建提出了几个问题，包括在数据收集和注释方面需要大量的财务成本，以及与自然图像数据集相比对患者保密性的严格隐私问题。因此，在有限的3D医学数据和监督下实现数据高效学习已成为3D医学图像分割中的一个紧迫问题。预训练是一种很有前景的方法，但由于现有 3D 医学图像数据集规模较小，因此很难提高其在 3D 医学图像分割中的性能。因此，我们提出了原始几何分割预训练 PrimGeoSeg 方法，通过仅使用原始几何对象进行 3D 医学图像分割的预训练分割任务来实现 3D 语义特征的学习。 PrimGeoSeg 可以执行更准确、更高效的 3D 医学图像分割，无需手动数据收集和注释。此外，实验结果表明，SwinUNETR 上的 PrimGeoSeg 比在 BTCV、MSD Task06 和 BraTS 数据集上从头开始学习的性能分别提高了 3.7、4.4 和 0.3。值得注意的是，尽管预训练数据数量相同，但其性能等于或优于最先进的自监督学习。根据实验结果，我们得出结论，仅通过查看原始几何对象就可以实现有效的预训练。

Inverse-like Antagonistic Scene Text Spotting via Reading-Order Estimation and Dynamic Sampling
Authors Shi Xue Zhang, Chun Yang, Xiaobin Zhu, Hongyang Zhou, Hongfa Wang, Xu Cheng Yin
场景文本识别是一项具有挑战性的任务，特别是对于具有复杂布局（例如镜像、对称或复古弯曲）的反向场景文本。在本文中，我们提出了一种统一的端到端可训练的逆类对抗性文本识别框架，称为 IATS，它可以在不牺牲通用文本的情况下有效地识别逆类场景文本。具体来说，我们提出了一种创新的阅读顺序估计模块 REM，它从初始边界模块 IBM 生成的初始文本边界中提取阅读顺序信息。为了优化和训练 REM，我们提出了一种联合阅读顺序估计损失，其中包括分类损失、正交性损失和分布损失。在IBM的帮助下，我们可以将初始文本边界划分为两个对称控制点，并使用轻量级边界细化模块BRM迭代细化新的文本边界，以适应各种形状和比例。为了缓解文本检测和识别之间的不兼容，我们提出了一种带有薄板样条的动态采样模块DSM，可以动态采样适当的特征以在检测到的文本区域中进行识别。在没有额外监督的情况下，DSM 可以通过识别模块返回的梯度主动学习采样适当的特征以进行文本识别。

Amirkabir campus dataset: Real-world challenges and scenarios of Visual Inertial Odometry (VIO) for visually impaired people
Authors Ali Samadzadeh, Mohammad Hassan Mojab, Heydar Soudani, Seyed Hesamoddin Mireshghollah, Ahmad Nickabadi
视觉惯性里程计 VIO 算法通过使用相机和惯性测量单元 IMU 传感器来估计准确的相机轨迹。 VIO 的应用范围广泛，包括增强现实和室内导航。 VIO 算法有潜力促进视障人士在室内和室外环境中的导航。然而，最先进的 VIO 算法在动态环境中遇到了巨大的挑战，特别是在人口稠密的走廊中。现有的 VIO 数据集（例如 ADVIO）通常无法有效地利用这些挑战。在本文中，我们引入了 Amirkabir 校园数据集 AUT VI 来解决上述问题并改进导航系统。 AUT VI 是一个新颖且极具挑战性的数据集，包含 17 个不同位置的 126 个不同序列。该数据集包含动态对象、具有挑战性的闭环地图重用、不同的照明条件、反射和突然的相机移动，以覆盖所有极端的导航场景。此外，为了支持正在进行的开发工作，我们向公众发布了用于数据捕获的 Android 应用程序。这使得研究人员能够轻松捕获他们定制的 VIO 数据集变化。

Big Data and Deep Learning in Smart Cities: A Comprehensive Dataset for AI-Driven Traffic Accident Detection and Computer Vision Systems
Authors Victor Adewopo, Nelly Elsayed, Zag Elsayed, Murat Ozer, Constantinos Zekios, Ahmed Abdelgawad, Magdy Bayoumi
在动态的城市景观中，车辆和行人的相互作用决定了生活节奏，集成先进技术以确保安全和效率变得越来越重要。这项研究深入探讨了尖端技术方法在智慧城市中的应用，重点是通过改进交通事故检测来增强公共安全。动作识别在解释视觉数据和跟踪对象运动（例如视频序列中的人体姿势估计）方面发挥着关键作用。动作识别的挑战包括快速动作的可变性、有限的数据集以及天气、照明和遮挡等环境因素。在本文中，我们提出了一个用于交通事故检测的新颖的综合数据集。该数据集专门设计用于支持计算机视觉和动作识别系统预测和检测道路交通事故。我们集成了来自全球各种数据源、道路网络、天气状况和地区的数据集。这种方法以实证研究为基础，旨在促进关于技术如何提高人口稠密地区的生活质量的讨论。这项研究旨在通过引入基准数据集来弥补现有的研究空白，这些基准数据集利用了为智慧城市交通事故检测量身定制的最先进算法。这些数据集预计将推进学术研究，并增强实时事故检测应用，为智能城市环境的发展做出重大贡献。

Involution Fused ConvNet for Classifying Eye-Tracking Patterns of Children with Autism Spectrum Disorder
Authors Md. Farhadul Islam, Meem Arafat Manab, Joyanta Jyoti Mondal, Sarah Zabeen, Fardin Bin Rahman, Md. Zahidul Hasan, Farig Sadeque, Jannatun Noor
自闭症谱系障碍 ASD 是一种复杂的神经系统疾病，诊断起来很困难。大量研究表明，被诊断患有自闭症的儿童很难保持注意力集中，视力也不太集中。眼动追踪技术在自闭症谱系障碍（ASD）背景下引起了特别关注，因为凝视异常长期以来一直被认为是自闭症的一个决定性特征。深度学习 DL 方法与眼动追踪传感器相结合，正在利用额外的功能来推进诊断及其应用。通过学习复杂的非线性输入输出关系，深度学习可以准确识别各种注视和眼动追踪模式并根据数据进行调整。仅卷积不足以捕获注视模式或眼球追踪中的重要空间信息。基于动态内核的过程（称为对合）可以提高对注视模式或眼睛跟踪数据进行分类的效率。在本文中，我们利用两种不同的图像处理操作来了解这些过程如何学习眼球追踪模式。由于这些模式主要基于空间信息，因此我们使用卷积与卷积使其成为混合模式，从而为深度学习模型添加了位置特定功能。我们提出的模型以简单而有效的方法实现，这使得它更容易在现实生活中应用。我们研究了我们的方法在眼动追踪模式分类方面效果良好的原因。为了进行比较分析，我们使用两个单独的数据集以及两者的组合版本进行实验。

SeTformer is What You Need for Vision and Language
Authors Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, Michael Felsberg
点积自注意力 DPSA 是 Transformer 的基本组成部分。然而，由于 softmax 操作产生的二次时间和内存复杂性，将它们缩放到长序列（如文档或高分辨率图像）变得非常昂贵。核方法用于通过近似 softmax 来简化计算，但与 softmax 注意力相比，通常会导致性能下降。我们提出了 SeTformer，一种新颖的转换器，其中 DPSA 完全被自优化传输 SeT 取代，以实现更好的性能和计算效率。 SeT 基于两个基本的 softmax 属性，维护非负注意力矩阵并使用非线性重新加权机制来强调输入序列中的重要标记。通过引入用于最佳传输的核成本函数，SeTformer 有效地满足了这些属性。特别是，对于小型和基本尺寸的模型，SeTformer 在 ImageNet 1K 上实现了令人印象深刻的 top 1 精度 84.7 和 86.2。在目标检测中，SeTformer 基础比 FocalNet 基础的性能高出 2.2 mAP，使用的参数少了 38 个，FLOP 少了 29 个。在语义分割中，我们的基本大小模型比 NAT 多了 3.5 mIoU，参数少了 33 个。 SeTformer 还在 GLUE 基准上的语言建模方面取得了最先进的结果。

Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos
Authors Rongqin Liang, Yuanman Li, Jiantao Zhou, Xia Li
驾驶视频中的交通异常检测 TAD 对于确保自动驾驶和高级驾驶辅助系统的安全至关重要。以前的单阶段 TAD 方法主要依赖于帧预测，这使得它们容易受到行车记录仪快速移动引起的动态背景的干扰。虽然两阶段 TAD 方法似乎是通过使用感知算法预先提取背景独立特征（例如边界框和光流）来减轻此类干扰的自然解决方案，但它们容易受到第一阶段感知算法性能的影响，并可能导致错误传播。在本文中，我们介绍了 TTHF，一种新颖的单阶段方法，将视频剪辑与文本提示对齐，为交通异常检测提供了新的视角。与以前的方法不同，我们方法的监督信号是从语言而不是正交的一个热向量导出的，提供了更全面的表示。此外，关于视觉表示，我们建议在时域中对驾驶视频的高频进行建模。该模型捕捉驾驶场景的动态变化，增强驾驶行为的感知，显着提高交通异常的检测能力。此外，为了更好地感知各种类型的交通异常，我们精心设计了一种细心的异常聚焦机制，从视觉和语言上引导模型自适应地聚焦于感兴趣的视觉上下文，从而促进交通异常的检测。

Re:Draw -- Context Aware Translation as a Controllable Method for Artistic Production
Authors Joao Liborio Cardoso, Francesco Banterle, Paolo Cignoni, Michael Wimmer
我们引入了上下文感知翻译，这是一种结合了修复和图像到图像翻译的优点的新颖方法，同时尊重原始输入和现有方法不足的上下文相关性。

FurniScene: A Large-scale 3D Room Dataset with Intricate Furnishing Scenes
Authors Genghao Zhang, Yuxi Wang, Chuanchen Luo, Shibiao Xu, Junran Peng, Zhaoxiang Zhang, Man Zhang
室内场景生成最近引起了人们的广泛关注，因为它对于游戏、虚拟现实和室内设计的应用至关重要。目前的室内场景生成方法可以产生合理的房间布局，但往往缺乏多样性和真实感。这主要是由于现有数据集的覆盖范围有限，仅包括大型家具，而没有日常生活中的小型家具。为了应对这些挑战，我们提出了 FurniScene，这是一个大型 3D 房间数据集，其中包含来自室内设计专业人士的复杂家具场景。具体来说，FurniScene由11,698个房间和39,691个独特的家具CAD模型组成，共有89种不同类型，涵盖了从大床到茶几上的小茶杯。为了更好地适应细粒度的室内场景布局生成，我们引入了一种新颖的两阶段扩散场景模型 TSDSM，并基于 FurniScene 为各种室内场景生成进行了评估基准。定量和定性评估证明了我们的方法生成高度逼真的室内场景的能力。

BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning
Authors Xiangyang Miao, Guobao Xiao, Shiping Wang, Jun Yu
对应修剪旨在在两个相关图像之间建立可靠的对应关系并恢复相对相机运动。现有的方法往往采用渐进策略来处理局部和全球背景，突出强调从局部到全球的过渡，导致忽视不同背景之间的相互作用。为了解决这个问题，我们提出了一种并行上下文学习策略，其中涉及为两个视图对应修剪任务获取双边共识。在我们的方法中，我们设计了一个独特的自我关注块来捕获全局上下文，并与已建立的本地上下文学习模块并行处理它，这使我们能够同时捕获本地和全球共识。通过结合这些本地和全球共识，我们得出所需的双边共识。我们还设计了一个重新校准块，减少错误共识信息的影响并增强模型的鲁棒性。我们努力的成果是双边共识学习网络 BCLNet，它可以有效地估计相机姿态并识别内部真实对应关系。大量的实验结果表明，我们的网络不仅超越了基准数据集上最先进的方法，而且还展示了跨各种特征提取技术的强大泛化能力。值得注意的是，BCLNet 在未知的室外数据集上比第二佳方法获得了 3.98 mAP5 circ 增益，明显加快了模型训练速度。

A Classification of Critical Configurations for any Number of Projective Views
Authors Martin Br telund
运动结构是从一组图像中恢复有关摄像机和 3D 场景的信息的过程。一般来说，在无噪声的情况下，如果提供足够的图像和图像点，则可以唯一地恢复所有信息。然而，在某些情况下，唯一的恢复是不可能的，即使在理论上这些也被称为关键配置。我们使用最近开发的代数方法对任意数量的投影相机的所有关键配置进行分类。我们证明它们形成了众所周知的代数簇，例如二次曲面和次数最多为 4 的曲线。本文还通过发现以前未知的关键配置并表明一些以前认为是关键的配置实际上是对早期结果的改进

SpecRef: A Fast Training-free Baseline of Specific Reference-Condition Real Image Editing
Authors Songyan Chen, Jiancheng Huang
基于大扩散生成模型的文本条件图像编辑引起了工业界和研究界的关注。大多数现有方法都是非参考编辑，用户只能提供源图像和文本提示。然而，它限制了用户对编辑结果特征的控制。为了增加用户的自由度，我们提出了一项名为“特定参考条件真实图像编辑”的新任务，它允许用户提供参考图像来进一步控制结果，例如用特定的对象替换对象。为了实现这一目标，我们提出了一种名为 SpecRef 的快速基线方法。具体来说，我们设计了一个特定参考注意控制器来合并参考图像的特征，并采用掩模机制来防止编辑和非编辑区域之间的干扰。我们在典型的编辑任务上对 SpecRef 进行了评估，并表明它可以达到令人满意的性能。

See360: Novel Panoramic View Interpolation
Authors Zhi Song Liu, Marie Paule Cani, Wan Chi Siu
我们提出了 See360，它是一个使用潜在空间视点估计进行 360 度全景视图插值的多功能且高效的框架。大多数现有的视图渲染方法仅关注室内或合成 3D 环境并渲染小物体的新视图。相比之下，我们建议将以相机为中心的视图合成作为 2D 仿射变换来处理，而不使用点云或深度图，从而实现有效的 360 度全景场景探索。给定一对参考图像，See360 模型学习通过提出的新颖的多尺度仿射变换器 MSAT 来渲染新颖的视图，从而实现从粗到细的特征渲染。我们还提出了一个条件潜在空间自动编码器 C LAE 来实现任意角度的视图插值。为了展示我们方法的多功能性，我们引入了四个训练数据集，即 UrbanCity360、Archinterior360、HungHom360 和 Lab360，它们是从室内和室外环境收集的，用于真实和合成渲染。实验结果表明，所提出的方法足够通用，可以实现所有四个数据集的任意视图的实时渲染。此外，我们的See360模型可以应用于野外视图合成，只需大约10分钟的短暂额外训练时间，并且能够渲染未知的现实世界场景。

Bilateral Reference for High-Resolution Dichotomous Image Segmentation
Authors Peng Zheng, Dehong Gao, Deng Ping Fan, Li Liu, Jorma Laaksonen, Wanli Ouyang, Nicu Sebe
我们引入了一种新颖的双边参考框架 BiRefNet，用于高分辨率二分图像分割 DIS。它包括两个基本组件：定位模块 LM 和带有我们提出的双边参考 BiRef 的重建模块 RM。 LM 使用全局语义信息帮助对象定位。在 RM 中，我们利用 BiRef 进行重建过程，其中分层图像块提供源参考，梯度图作为目标参考。这些组件协作生成最终的预测图。我们还引入了辅助梯度监督来增强对细节更精细的区域的关注。此外，我们概述了为 DIS 量身定制的实用培训策略，以提高地图质量和培训过程。

Towards Effective Multiple-in-One Image Restoration: A Sequential and Prompt Learning Strategy
Authors Xiangtao Kong, Chao Dong, Lei Zhang
虽然单任务图像恢复 IR 取得了巨大的成功，但训练可以处理多个 IR 任务的单个模型仍然是一个具有挑战性的问题。在这项工作中，我们深入研究了多合一 MiO IR 问题，其中包括七个流行的 IR 任务。我们指出，MIO IR 面临两个关键挑战：多样化目标的优化和多任务的适应。为了应对这些挑战，我们提出了两种简单而有效的策略。第一种策略称为顺序学习，试图解决如何优化不同目标的问题，引导网络以顺序方式逐步学习各个 IR 任务，而不是将它们混合在一起。第二种策略，即即时学习，试图解决如何适应不同的IR任务，帮助网络理解具体任务并提高泛化能力。通过对 19 个测试集进行评估，我们证明了顺序和即时学习策略可以显着提高常用 CNN 和 Transformer 主干的 MiO 性能。我们的实验还表明，这两种策略可以相互补充，以学习更好的退化表示并增强模型的鲁棒性。

Image Inpainting via Tractable Steering of Diffusion Models
Authors Anji Liu, Mathias Niepert, Guy Van den Broeck
扩散模型是生成逼真图像的当前技术水平。然而，控制受约束图像生成任务（例如修复）的采样过程仍然具有挑战性，因为对此类约束的精确调节很困难。虽然现有方法使用各种技术来近似约束后验，但本文提出利用可处理概率模型 TPM 的能力来准确有效地计算约束后验，并利用该信号来引导扩散模型的去噪过程。具体来说，本文采用了一类称为概率电路 PC 的富有表现力的 TPM。在先前进展的基础上，我们进一步扩大了 PC 的规模，使其能够指导扩散模型的图像生成过程。实证结果表明，我们的方法可以持续提高三个自然图像数据集（即 CelebA HQ、ImageNet 和 LSUN）中修复图像的整体质量和语义一致性，而 TPM 只带来 10 个额外的计算开销。此外，在图像编码器和解码器的帮助下，我们的方法可以轻松接受图像特定区域的语义约束，这为更受控制的图像生成任务开辟了潜力。

Classifying cow stall numbers using YOLO
Authors Dheeraj Vajjarapu
本文介绍了 CowStallNumbers 数据集，这是从针对奶牛乳头的视频中提取的图像集合，旨在推进奶牛栏数量检测领域的发展。该数据集包含 1042 张训练图像和 261 张测试图像，档位编号范围为 0 到 60。为了增强数据集，我们对 YOLO 模型进行了微调，并应用了数据增强技术，包括随机裁剪、中心裁剪和随机旋转。

Walnut Detection Through Deep Learning Enhanced by Multispectral Synthetic Images
Authors Kaiming Fu, Tong Lei, Maryia Halubok, Brian N. Bailey
果园内核桃的准确识别带来了诸多优势，深刻提高了核桃园管理的效率和生产力。然而，核桃树的独特特征，即核桃和叶子之间的形状、颜色和纹理非常相似，这对在注释过程中精确区分它们提出了巨大的挑战。在这项研究中，我们提出了一种提高核桃检测效率的新方法，利用在包含真实和合成 RGB 和 NIR 图像的丰富图像集上训练的 YOLOv5。

Spatiotemporally adaptive compression for scientific dataset with feature preservation -- a case study on simulation data with extreme climate events analysis
Authors Qian Gong, Chengzhu Zhang, Xin Liang, Viktor Reshniak, Jieyang Chen, Anand Rangarajan, Sanjay Ranka, Nicolas Vidal, Lipeng Wan, Paul Ullrich, Norbert Podhorszki, Robert Jacob, Scott Klasky
科学发现越来越受到有限的存储空间和 I O 容量的限制。对于时间序列模拟和实验，它们的数据通常需要按时间步进行抽取，以适应存储和 I O 限制。在本文中，我们提出了一种技术，该技术可以解决存储成本问题，同时通过时空自适应、错误控制的有损压缩来提高分析后的准确性。我们研究了数据精度和时间输出率之间的权衡，发现降低数据精度和增加时间步频率可以带来更准确的分析结果。

Exploiting Data Hierarchy as a New Modality for Contrastive Learning
Authors Arjun Bhalla, Daniel Levenson, Jan Bernhard, Anton Abilov
这项工作研究了层次结构数据如何帮助神经网络学习大教堂的概念表示。基础 WikiScenes 数据集提供了大教堂组件的空间组织层次结构。我们提出了一种新颖的分层对比训练方法，利用三元组边缘损失来表示编码器潜在空间中数据的空间层次结构。因此，所提出的方法研究数据集结构是否为自监督学习提供了有价值的信息。我们应用 t SNE 来可视化所产生的潜在空间，并通过使用常见的下游分类任务将其与其他数据集特定的对比学习方法进行比较来评估所提出的方法。所提出的方法优于可比较的弱监督方法和基线方法。

Multi-View 3D Instance Segmentation of Structural Anomalies for Enhanced Structural Inspection of Concrete Bridges
Authors Christian Benz, Volker Rodehorst
为了进行有效的结构损伤评估，需要将损伤实例定位在 3D 模型的世界中。由于缺乏数据，目前无法在 3D 空间中直接学习和执行结构异常的检测。在这项工作中，提出了一种三阶段方法，该方法利用图像级别检测模型的良好性能来分割 3D 空间中的异常实例。在检测阶段，在图像级别产生语义分割预测。映射阶段将图像级预测传输到相应的点云上。在提取阶段，从分割的点云中提取 3D 异常实例。云收缩用于将裂纹转换为其中轴表示。对于区域异常，通过 alpha 形状提取边界多边形。该方法涵盖了裂纹、剥落和腐蚀等类别，并对三种图像级分割模型 TopoCrack、nnU Net 和DetectionHMA 进行了比较。假设定位公差为 4 厘米，裂纹和腐蚀的 IoU 可以达到 90 以上，剥落的 IoU 可以达到 41，这似乎是一个特别具有挑战性的类别。

Real Time Human Detection by Unmanned Aerial Vehicles
Authors Walid Guettala, Ali Sayah, Laid Kahloul, Ahmed Tibermacine
计算机视觉和遥感中最重要的问题之一是目标检测，它可以识别图片中不同事物的特定类别。公共安全的两个重要数据来源是无人机拍摄的热红外TIR遥感多场景照片和视频。由于目标规模小、场景信息复杂、相对于可观看视频的分辨率较低，并且缺乏公开可用的标记数据集和训练模型，其目标检测过程仍然很困难。本研究提出了一种用于图片和视频的无人机 TIR 目标检测框架。用于收集地面 TIR 照片和视频的前视红外 FLIR 相机用于创建基于 CNN 架构的 You Only Look Once YOLO 模型。结果表明，在验证任务中，使用 YOLOv7 YOLO 版本 7 最先进的模型（引用 1），检测人体对象在 IOU Intersection over Union 0.5 上的平均精度为 72.5 ，而检测速度约为每秒 161 帧 FPS 秒。 YOLO 架构的实用性在该应用中得到了证明，该应用根据各种无人机观察角度评估了 YOLOv7 模型下无人机 TIR 视频中人员的交叉检测性能。

Group Activity Recognition using Unreliable Tracked Pose
Authors Haritha Thilakarathne, Aiden Nibali, Zhen He, Stuart Morgan
视频中的群体活动识别是一项复杂的任务，因为需要一个模型来识别视频中所有个体的行为及其复杂的交互。最近的研究提出，通过单独跟踪每个人并随后将姿势序列或裁剪图像光流输入到模型中，可以实现最佳性能。这有助于模型在合并到达群体动作类之前识别每个人正在执行什么动作。然而，之前的所有模型都高度依赖于高质量跟踪，并且仅使用地面实况跟踪信息进行评估。在实践中，几乎不可能获得群体活动视频中所有个体的高度可靠的跟踪信息。我们引入了一种基于深度学习的创新群体活动识别方法，称为基于渲染姿势的群体活动识别系统 RePGARS，该方法旨在容忍不可靠的跟踪和姿势信息。

RustNeRF: Robust Neural Radiance Field with Low-Quality Images
Authors Mengfei Li, Ming Lu, Xiaofang Li, Shanghang Zhang
NeRF 最近在神经辐射场方面的工作利用了多视图 3D 一致性，在 3D 场景建模和高保真新颖视图合成方面取得了令人印象深刻的成果。然而，也有局限性。首先，现有方法假设有足够的高质量图像可用于训练 NeRF 模型，而忽略了现实世界的图像退化。其次，由于不同视图之间未建模的不一致，以前的方法在训练集中遇到了模糊性。在这项工作中，我们提出了 RustNeRF 来实现现实世界的高质量 NeRF。为了提高 NeRF 在现实世界输入下的鲁棒性，我们训练了一个包含现实世界退化模型的 3D 感知预处理网络。我们提出了一种新颖的隐式多视图引导来解决图像退化和恢复过程中的信息丢失问题。大量实验证明了 RustNeRF 在现实世界退化情况下优于现有方法。

Large Language Models as Visual Cross-Domain Learners
Authors Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, Yu Zhang
深度学习模型取得的最新进展依赖于独立同分布的假设，阻碍了它们在具有领域转移的现实场景中的应用。为了解决上述问题，跨领域学习旨在提取领域不变知识，以减少训练数据和测试数据之间的领域转移。然而，在视觉跨域学习中，传统方法仅关注图像模态，忽略了使用文本模态来缓解域转移。在这项工作中，我们提出了大型语言模型作为视觉跨域学习器 LLaVO 。 LLaVO 使用视觉语言模型将图像转换为详细的文本描述。然后，根据设计的指令模板生成的源目标域的文本描述对大型语言模型进行微调。

MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image Translation by Prompts Redescription and Beyond
Authors Yupei Lin, Xiaoyu Xian, Yukai Shi, Liang Lin
最近，文本到图像扩散模型成为图像处理领域的新范例，包括内容生成、图像恢复和图像到图像翻译。给定目标提示，去噪扩散概率模型 DDPM 能够生成真实且合格的图像。凭借这一吸引人的特性，图像翻译任务有可能摆脱目标图像样本的监督。通过使用域适应的目标文本提示，扩散模型能够有利地实现零镜头图像到图像的转换。然而，DDPM的采样和反演过程是随机的，因此反演过程常常无法重建输入内容。具体而言，在扩散和反演过程中，位移效应会逐渐累积，导致重建结果偏离源域。为了使重建变得明确，我们提出了一种即时重新描述策略，以在扩散模型 MirrorDiffusion 中实现源图像和重建图像之间的镜像效果。更具体地说，研究了提示重新描述机制，以在去噪扩散隐式模型 DDIM 反演的每个时间步将文本提示与潜在代码对齐，以实现结构保留重建。通过改进的 DDIM 反演，MirrorDiffusion 能够通过编辑优化的文本提示和潜在代码来实现精确的零镜头图像翻译。

MetaISP -- Exploiting Global Scene Structure for Accurate Multi-Device Color Rendition
Authors Matheus Souza, Wolfgang Heidrich
图像信号处理器 ISP 是历史上发展起来的传统软件系统，用于从嘈杂的原始传感器测量中重建彩色图像。每个智能手机制造商都开发了具有自己特色启发式的 ISP，以改善色彩再现，例如肤色和其他视觉上重要的颜色。最近人们热衷于用深度学习的管道取代历史上发展的 ISP 系统，以匹配 DSLR 的图像质量，从而改善图像的结构特征。然而，这些工作忽略了基于语义场景分析的卓越色彩处理，这是手机 ISP 与 DSLR 的区别。在这里，我们介绍 MetaISP，这是一个单一模型，旨在学习如何在不同设备的颜色和局部对比度特性之间进行转换。 MetaISP 将设备 A 的 RAW 图像作为输入，并将其转换为继承设备 A、B 和 C 的外观特征的 RGB 图像。我们通过采用轻量级深度学习技术来实现此结果，该技术根据设备调节其输出外观出于兴趣。在这种方法中，我们利用受交叉协方差启发的新颖注意机制来学习全局场景语义。

Hi-Map: Hierarchical Factorized Radiance Field for High-Fidelity Monocular Dense Mapping
Authors Tongyan Hua, Haotian Bai, Zidong Cao, Ming Liu, Dacheng Tao, Lin Wang
在本文中，我们介绍了 Hi Map，一种基于神经辐射场 NeRF 的新型单目密集建图方法。 Hi Map 具有出色的能力，仅使用摆好的 RGB 输入即可实现高效和高保真度的映射。我们的方法消除了对来自深度估计模型等外部深度先验的需要。我们的关键思想是将场景表示为分层特征网格，对辐射进行编码，然后将其分解为特征平面和向量。因此，场景表示变得更简单、更通用，可以快速、平滑地收敛新的观察结果。这样可以实现高效计算，同时通过降低场景表示的复杂性来减轻噪声模式。在分层因式分解表示的支持下，我们利用符号距离场 SDF 作为渲染代理来推断体积密度，从而证明了高映射保真度。此外，我们引入了双路径编码策略来增强光度线索并进一步提高映射质量，特别是对于远处和无纹理的区域。

3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding
Authors Zeju Li, Chao Zhang, Xiaoyan Wang, Ruilong Ren, Yifan Xu, Ruifei Ma, Xiangde Liu
多模态大语言模型 MLLM 在理解视觉和语言信息方面的巨大潜力已得到广泛认可。然而，与 2D 场景语言对相比，3D 场景语言对的稀缺性，加上法学硕士理解 3D 场景的现有方法的不足，构成了重大挑战。作为响应，我们收集并构建了一个广泛的数据集，其中包含专为 3D 场景定制的 75K 指令响应对。该数据集解决与 3D VQA、3D 基础和 3D 对话相关的任务。为了进一步增强 3D 空间信息与 LLM 的集成，我们引入了一种新颖且高效的提示调整范例 3DMIT。这种范例消除了 3D 场景和语言之间的对齐阶段，并使用包括整个场景和分段对象的 3D 模态信息扩展了指令提示。我们评估了我们的方法在 3D 场景领域的不同任务中的有效性，并发现我们的方法可以作为丰富法学硕士对 3D 世界的理解的战略手段。

DistFormer: Enhancing Local and Global Features for Monocular Per-Object Distance Estimation
Authors Aniello Panariello, Gianluca Mancusi, Fedy Haj Ali, Angelo Porrello, Simone Calderara, Rita Cucchiara
准确的每个物体距离估计对于自动驾驶、监控和机器人等安全关键应用至关重要。现有方法依赖于两个尺度的局部信息，即边界框比例或全局信息，它们对场景的语义以及与相邻对象的空间关系进行编码。然而，这些方法可能难以处理长距离物体以及存在强烈遮挡或不寻常的视觉模式。在这方面，我们的工作旨在加强本地和全球线索。我们名为 DistFormer 的架构建立在三个共同作用的主要组件之上：i 一个强大的上下文编码器，提取细粒度的每个对象表示；ii 一个屏蔽编码器解码器模块，利用自我监督来促进学习每个对象的有用特征；iii 一个聚合对象表示和计算的全局细化模块。联合的、空间一致的估计。为了评估 DistFormer 的有效性，我们在标准 KITTI 数据集以及大规模 NuScenes 和 MOTSynth 数据集上进行了实验。此类数据集涵盖各种室内室外环境、不断变化的天气条件、外观和相机视角。我们的综合分析表明 DistFormer 优于现有方法。

Distribution-aware Interactive Attention Network and Large-scale Cloud Recognition Benchmark on FY-4A Satellite Image
Authors Jiaqing Zhang, Jie Lei, Weiying Xie, Kai Jiang, Mingxiang Cao, Yunsong Li
准确的云识别和预警对于各种应用至关重要，包括飞行支持、天气预报和气候研究。然而，最近的深度学习算法主要集中在检测卫星图像中的云区域，而对准确云识别所需的特异性关注不够。这一限制启发我们开发了新颖的 FY 4A Himawari 8 FYH 数据集，该数据集包括九个不同的云类别，并使用精确的域适应方法在投影、时间分辨率和空间分辨率方面对齐 70,419 个图像标签对，从而促进训练有监督的深度学习网络。鉴于云形成的复杂性和多样性，我们彻底分析了云识别任务固有的挑战，检查了数据的复杂特征和分布。为了有效应对这些挑战，我们设计了分布感知交互式注意力网络 DIAnet，它通过高分辨率分支和并行多分辨率交叉分支保留像素级细节。我们还集成了分布感知损失 DAL，以减轻云类别之间的不平衡。交互式注意力模块 IAM 进一步增强了特征提取与空间和通道信息相结合的鲁棒性。对 FYH 数据集的实证评估表明，我们的方法优于其他云识别网络，在平均交集方面优于 Union mIoU 。

Multimodal Informative ViT: Information Aggregation and Distribution for Hyperspectral and LiDAR Classification
Authors Jiaqing Zhang, Jie Lei, Weiying Xie, Geng Yang, Daixun Li, Yunsong Li, Karim Seghouane
在多模态土地覆盖分类MLCC中，一个常见的挑战是数据分布的冗余，来自多种模态的不相关信息可能会阻碍其独特特征的有效整合。为了解决这个问题，我们引入了 Multimodal Informative Vit MIVit，这是一个具有创新信息聚合分发机制的系统。这种方法重新定义了冗余级别，并将性能感知元素集成到融合表示中，从而促进向前和向后方向的语义学习。 MIVit 的突出之处在于显着减少了每种模态的单独和融合特征的经验分布中的冗余。它采用定向注意力融合 OAF 来提取水平和垂直维度上跨模态的浅层局部特征，并采用 Transformer 特征提取器通过远程注意力来提取深层全局特征。我们还提出了一种基于互信息的信息聚合约束IAC，旨在去除冗余信息并保留嵌入特征内的互补信息。此外，MIVit 中的信息分发流 IDF 通过跨不同模态特征图分发全局分类信息来增强性能意识。该架构还通过轻量级独立模态分类器解决了缺失的模态挑战，减少了通常与 Transformer 相关的计算负载。我们的结果表明，MIVit 模态之间的双向聚合分配机制非常有效，在三个多模态数据集上实现了 95.56 的平均总体准确度。该性能超越了 MLCC 中当前最先进的方法。

Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
Authors Qian Li, Lixin Su, Jiashu Zhao, Long Xia, Hengyi Cai, Suqi Cheng, Hengzhu Tang, Junfeng Wang, Dawei Yin
文本视频检索是一项具有挑战性的任务，旨在根据文本查询识别相关视频。与传统的文本检索相比，文本视频检索的主要障碍是查询的文本性质与视频内容的视觉丰富性之间的语义差距。以前的工作主要集中在通过精细聚合词帧匹配信号来对齐查询和视频。受人类模块化判断文本与视频相关性认知过程的启发，由于视频内容的连续性和复杂性，该判断需要高阶匹配信号。在本文中，我们提出了块级文本视频匹配，其中提取查询块来描述特定的检索单元，并将视频块分割成视频中的不同片段。我们将块级匹配制定为查询词和视频帧之间的n元相关性建模，并引入用于n元相关性建模的多模态超图。通过将文本单元和视频帧表示为节点并使用超边来描述它们的关系，构建了多模态超图。这样，查询和视频可以在高阶语义空间中对齐。此外，为了增强模型的泛化能力，将提取的特征输入变分推理组件进行计算，得到高斯分布下的变分表示。超图和变分推理的结合使我们的模型能够捕获文本和视觉内容之间复杂的、多种交互。

PosDiffNet: Positional Neural Diffusion for Point Cloud Registration in a Large Field of View with Perturbations
Authors Rui She, Sijie Wang, Qiyu Kang, Kai Zhao, Yang Song, Wee Peng Tay, Tianyu Geng, Xingchao Jian
点云配准是3D计算机视觉中的一项关键技术，具有广泛的应用前景。然而，这项任务可能具有挑战性，特别是在具有动态物体、环境噪声或其他扰动的大视野中。为了应对这一挑战，我们提出了一个名为 PosDiffNet 的模型。我们的方法基于窗口级别、补丁级别和点级别对应执行分层注册。我们利用基于 Beltrami 流的图神经偏微分方程 PDE 来获得点云的高维特征和位置嵌入。我们将位置嵌入合并到基于神经常微分方程 ODE 的 Transformer 模块中，以有效地表示点内的补丁。我们采用从高特征相似性得分得出的多级对应关系来促进点云之间的对齐。随后，我们使用配准方法（例如基于 SVD 的算法）来使用相应的点对来预测变换。我们在多个 3D 点云数据集上评估 PosDiffNet，验证其在具有扰动的大视场中实现了最先进的点云配准 SOTA 性能。

ImageLab: Simplifying Image Processing Exploration for Novices and Experts Alike
Authors Sahan Dissanayaka, Oshan Mudanayaka, Thilina Halloluwa, Chameera De Silva
图像处理具有巨大的社会效益潜力，但通常只有精通技术的专家才能充分发挥其潜力。弥合这一知识差距并为所有背景的用户提供易于使用的工具仍然是一个尚未探索的领域。本文介绍了 ImageLab，这是一种旨在实现图像处理民主化的新颖工具，通过优先考虑交互式学习而不是理论复杂性来满足新手和专家的需求。 ImageLab 不仅是宝贵的教育资源，还为经验丰富的从业者提供了实用的测试环境。通过对 ImageLab 功能的全面评估，我们通过针对小学生和大学生的用户研究展示了其有效性，这使我们能够获得对该工具的积极反馈。

An Event-Oriented Diffusion-Refinement Method for Sparse Events Completion
Authors Bo Zhang, Yuqi Han, Jinli Suo, Qionghai Dai
事件摄像机或动态视觉传感器 DVS 记录对亮度变化的异步响应，而不是传统的强度帧，并在低带宽下具有超高灵敏度。新机制在快速运动和大动态范围的挑战性场景中表现出巨大的优势。然而，由于硬件带宽有限或恶劣环境中的极端光子饥饿，记录的事件可能非常稀疏。为了释放事件相机的全部潜力，我们提出了一种创造性的事件序列完成方法，该方法符合事件数据在处理阶段和输出形式的独特特征。具体来说，我们将事件流视为时空域中的 3D 事件云，开发基于扩散的生成模型以从粗到细的方式生成密集云，并恢复精确的时间戳以成功保持原始数据的时间分辨率。为了全面验证我们方法的有效性，我们对三个广泛使用的具有不同空间分辨率的公共数据集进行了广泛的实验，并另外收集了一个新颖的事件数据集，涵盖具有高度动态运动和严酷照明下的多种场景。

Controllable Image Synthesis of Industrial Data Using Stable Diffusion
Authors Gabriele Valvano, Antonino Agostino, Giovanni De Magistris, Antonino Graziano, Giacomo Veneri
训练执行缺陷检测和分割的监督深度神经网络需要大规模的完全注释的数据集，这在工业环境中很难甚至不可能获得。生成式人工智能提供了人为扩大小型工业数据集的机会，从而能够在行业中使用最先进的监督方法。不幸的是，好的生成模型也需要大量数据来训练，而工业数据集通常很小。在这里，我们提出了一种新方法，用于在工业数据上重用通用预训练生成模型，最终允许生成自标记的缺陷图像。首先，我们让模型学习新概念，从而带来新颖的数据分布。然后，我们迫使它学习调节生成过程，生成满足明确定义的拓扑特征并显示给定几何形状和位置的缺陷的工业图像。为了突出我们方法的优势，我们使用合成数据集来优化实际工业用例的裂纹分割器。

CaMML: Context-Aware Multimodal Learner for Large Models
Authors Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li
在这项工作中，我们引入了上下文感知多模态学习器 CaMML，用于调整大型多模态模型 LMM。 CaMML 是一个轻量级模块，旨在将多模态上下文样本无缝集成到大型模型中，从而使模型能够从类似的、特定领域的、最新的信息中获取知识并做出有根据的推论。重要的是，CaMML 具有高度可扩展性，并且由于其分层设计，可以有效地处理冗长的多模式上下文示例。基于 CaMML，我们开发了两种多模态模型 CaMML 7B 和 CaMML 13B，它们在多模态任务的一系列基准数据集上表现出了卓越的性能。值得注意的是，CaMML 13B 在十多个广泛认可的多模态基准数据集上实现了最先进的性能，以显着的优势超越了 LLaVA 1.5 13B，而无需集成任何外部资源。

Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection
Authors Yuanpeng Tu, Boshen Zhang, Liang Liu, Yuxi Li, Chenhai Xu, Jiangning Zhang, Yabiao Wang, Chengjie Wang, Cai Rong Zhao
工业异常检测通常被视为一项无监督任务，旨在仅使用正常训练样本来定位缺陷。最近，人们提出了许多二维异常检测方法，并取得了可喜的结果，然而，仅使用二维 RGB 数据作为输入不足以识别难以察觉的几何表面异常。因此，在这项工作中，我们专注于多模态异常检测。具体来说，我们研究了早期的多模态方法，这些方法试图利用在大规模视觉数据集（即 ImageNet）上预先训练的模型来构建特征数据库。我们根据经验发现，直接使用这些预先训练的模型并不是最优的，它可能无法检测到细微的缺陷，或者将异常特征误认为是正常特征。这可能归因于目标工业数据和源数据之间的领域差距。针对这个问题，我们提出了一种局部到全局的自监督特征适应 LSFA 方法来微调适配器并学习面向异常检测的任务导向表示。在LSFA中从局部到全局的角度对跨模态对齐进行了优化，以确保推理阶段的表示质量和一致性。大量的实验表明，我们的方法不仅为基于特征嵌入的方法带来了显着的性能提升，而且优于之前的状态

SAR Despeckling via Regional Denoising Diffusion Probabilistic Model
Authors Xuran Hu, Ziqiang Xu, Zhihan Chen, Zhengpeng Feng, Mingzhe Zhu, LJubisa Stankovic
散斑噪声对维持合成孔径雷达SAR图像的质量提出了重大挑战，因此SAR去散斑技术越来越受到关注。尽管深度学习在固定尺度 SAR 图像去斑方面取得了巨大进步，但这些方法仍然难以处理大规模 SAR 图像。为了解决这个问题，本文提出了一种新的去斑方法，称为基于生成模型的区域去噪扩散概率模型 R DDPM。 R DDPM 能够在单个训练课程中完成各种尺度的 SAR 图像的多功能去斑。此外，利用区域引导逆采样可以有效避免融合SAR图像中的伪影。

Transferable Learned Image Compression-Resistant Adversarial Perturbations
Authors Yang Sui, Zhuohang Li, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Zhenzhong Chen
对抗性攻击很容易破坏图像分类系统，揭示基于 DNN 的识别任务的漏洞。虽然现有的对抗性扰动主要应用于未压缩图像或通过传统图像压缩方法（即 JPEG）压缩的图像，但有限的研究调查了基于 DNN 的图像压缩背景下图像分类模型的鲁棒性。随着高级图像压缩的快速发展，基于 DNN 的学习图像压缩由于其优于传统压缩的性能，已成为许多安全关键应用（例如基于云的人脸识别和自动驾驶）中传输图像的有前途的方法。因此，迫切需要充分研究经过学习图像压缩后处理的分类系统的鲁棒性。为了弥补这一研究差距，我们探索了对新管道的对抗性攻击，该管道针对利用学习的图像压缩器作为预处理模块的图像分类模型。此外，为了增强扰动在不同质量水平和学习图像压缩模型架构之间的可传递性，我们引入了基于显着性分数的采样方法，以实现可传递扰动的快速生成。

Dress-Me-Up: A Dataset & Method for Self-Supervised 3D Garment Retargeting
Authors Shanthika Naik, Kunwar Singh, Astitva Srivastava, Dhawal Sirikonda, Amit Raj, Varun Jampani, Avinash Sharma
我们提出了一种新颖的自监督框架，用于将非参数化 3D 服装重新定位到任意形状和姿势的 3D 人体化身上，从而实现 VTON 上的 3D 虚拟尝试。现有的自监督 3D 重定向方法仅支持参数化和规范的服装，这些服装只能覆盖在参数化的身体上，例如SMPL。为了促进非参数化服装和身体，我们提出了一种新方法，引入基于 Isomap Embedding 的服装和人体之间的对应匹配，以获得两个网格之间的粗略对齐。我们在自我监督的环境中对粗略对齐进行神经细化。此外，我们利用拉普拉斯细节集成方法来保留输入服装的固有细节。为了评估我们的 3D 非参数服装重定向框架，我们提出了包含 255 件真实世界服装的数据集，这些服装具有真实的噪声和拓扑变形。该数据集包含 15 名不同受试者以 5 种独特姿势穿着的 44 件独特服装，使用多视图 RGBD 捕获设置捕获。

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
Authors Xin He, Longhui Wei, Lingxi Xie, Qi Tian
多模态大型语言模型 MLLM 正在经历快速增长，近几个月产生了大量值得注意的贡献。流行的趋势涉及采用数据驱动的方法，其中收集遵循数据集的不同指令。然而，这些方法仍然存在一个普遍的挑战，特别是与有限的视觉感知能力有关，因为像 CLIP 这样的编码器用于从输入中提取视觉信息。尽管这些编码器经过了数十亿图像文本对的预先训练，但由于文本字幕仅部分捕获了图像中描绘的内容，因此它们仍然面临着信息丢失的困境。为了解决这一限制，本文提出通过混合专家知识增强机制来提高 MLLM 的视觉感知能力。具体来说，我们引入了一种新颖的方法，将多任务编码器和视觉工具合并到现有的 MLLM 训练和推理管道中，旨在提供更全面、更准确的视觉输入摘要。

Consensus-Threshold Criterion for Offline Signature Verification using Convolutional Neural Network Learned Representations
Authors Paul Brimoh, Chollette C. Olisah
即使在很短的时间间隔内，真正的签名者的签名自然也不稳定，而专家伪造者总是试图完美地模仿真正的签名者的签名。这提出了一个挑战，使真正的签名者面临被拒绝访问的风险，而伪造的签名者则被授予访问权限。这意味着较高的错误接受率 FAR，即被分类为属于真实类别的伪造签名的百分比。现有的工作只触及了签名验证的表面，因为错误分类错误仍然很高。本文提出了一种基于共识阈值距离的分类器标准，用于离线依赖于作者的签名验证。使用从 SigNet 和 SigNet F 深度卷积神经网络模型提取的特征，所提出的分类器最小化 FAR。这通过四个数据集 GPDS 300、MCYT、CEDAR 和巴西 PUC PR 数据集的实验得到了证明。在 GPDS 300 上，共识阈值分类器通过实现 1.27 FAR 来提高最先进的性能，而文献中记录的 FAR 为 8.73 和 17.31。

Traffic Cameras to detect inland waterway barge traffic: An Application of machine learning
Authors Geoffery Agorku, Sarah Hernandez PhD, Maria Falquez, Subhadipto Poddar PhD, Kwadwo Amankwah Nkyi
内陆水道对于货运至关重要，但监测驳船等货运船舶性能和使用情况的手段有限。虽然跟踪船舶（例如拖船和拖船）的方法可通过自动识别系统 AIS 公开获得，但跟踪这些关键海上高速公路驳船上运载的货运吨位和商品流量的方法却不存在，尤其是在实时环境中。本文开发了一种使用具有适当视角的现有交通摄像机来检测内陆水道驳船交通的方法。采用深度学习模型，特别是 You Only Look Once YOLO 、 Single Shot MultiBox Detector SSD 和 EfficientDet 。该模型从视频中检测船只和/或驳船的存在，并执行无船只或驳船、无驳船的船只、有驳船的船只和驳船的分类。从密西西比河和俄亥俄河沿岸的五个现有交通摄像头收集了 331 张带注释图像的数据集，用于模型开发。 YOLOv8 的 F1 分数为 96 分，优于 YOLOv5、SSD 和 EfficientDet 模型，分别为 86 分、79 分和 77 分。对天气条件雾和雨以及密西西比河和俄亥俄河的位置进行了敏感性分析。使用背景扣除技术对不同位置的视频图像进行标准化，以进行位置敏感性分析。该模型可用于检测沿河段驳船的存在，可用于匿名大宗商品跟踪和监控。

Latte: Latent Diffusion Transformer for Video Generation
Authors Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan Fang Li, Cunjian Chen, Yu Qiao
我们提出了一种新颖的潜在扩散变压器，即 Latte，用于视频生成。 Latte 首先从输入视频中提取时空标记，然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模，从分解输入视频的空间和时间维度的角度引入了四种有效的变体。为了提高生成视频的质量，我们通过严格的实验分析确定了 Latte 的最佳实践，包括视频片段补丁嵌入、模型变体、时间步长类信息注入、时间位置嵌入和学习策略。我们的综合评估表明，Latte 在四个标准视频生成数据集（即 FaceForensics、SkyTimelapse、UCF101 和 Taichi HD）上实现了最先进的性能。此外，我们将 Latte 扩展到文本到视频生成 T2V 任务，其中 Latte 取得了与最新 T2V 模型相当的结果。

Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing
Authors Qihua Chen, Xuejin Chen, Chenxuan Wang, Yixiong Liu, Zhiwei Xiong, Feng Wu
当前电子显微镜 EM 数据的神经元重建流程通常包括自动图像分割，然后进行广泛的人类专家校对。在这项工作中，我们的目标是通过预测过度分割的神经元片段之间的连接性来减少人工工作量，同时考虑显微镜图像和 3D 形态特征，类似于人类校对工作流程。为此，我们首先构建一个名为 FlyTracing 的数据集，其中包含数百万个扩展整个果蝇大脑的分段成对连接，该数据集比现有的神经元分段连接数据集大三个数量级。为了从连接注释中学习复杂的生物成像特征，我们提出了一种新颖的连接感知对比学习方法来生成密集的体积电磁图像嵌入。学习到的嵌入可以轻松地与任何基于点或体素的形态表示相结合，以进行自动神经元追踪。在识别整个果蝇大脑的分割错误时，对图像和形态表示的不同组合方案进行了广泛的比较，证明了所提出的方法的优越性，特别是对于包含严重成像伪影（例如切片丢失和未对准）的位置。

CATFace: Cross-Attribute-Guided Transformer with Self-Attention Distillation for Low-Quality Face Recognition
Authors Niloufar Alipour Talemi, Hossein Kashiani, Nasser M. Nasrabadi
尽管人脸识别FR近年来取得了巨大成功，但由于面部细节模糊，在低质量图像中准确识别人脸仍然具有挑战性。尽管如此，即使在处理低质量图像时，对特定的软生物统计 SB 属性（例如性别和秃头）进行预测通常也是可行的。在本文中，我们提出了一种新颖的多分支神经网络，它利用 SB 属性信息来提高 FR 的性能。为此，我们提出了一种跨属性引导的变压器融合 CATF 模块，该模块可以有效地捕获 FR 和 SB 特征表示之间的长程依赖性和关系。所提出的 CATF 模块的双交叉注意操作中的信息交互流所产生的协同作用增强了 FR 的性能。此外，我们引入了一种新颖的自注意力蒸馏框架，该框架可以通过将低质量图像与特征空间中的高质量对应图像对齐来有效地突出关键的面部区域，例如地标。所提出的自注意力蒸馏规范了我们的网络，以在无约束的环境中学习统一的质量不变特征表示。我们对不同质量的 FR 基准进行了广泛的实验。

RudolfV: A Foundation Model by Pathologists for Pathologists
Authors Jonas Dippel, Barbara Feulner, Tobias Winterhoff, Simon Schallenberg, Gabriel Dernbach, Andreas Kunft, Stephan Tietz, Philipp Jurmeister, David Horst, Lukas Ruff, Klaus Robert M ller, Frederick Klauschen, Maximilian Alber
组织病理学在临床医学和生物医学研究中发挥着核心作用。尽管人工智能在许多病理任务上显示出有希望的结果，但泛化和处理训练数据稀缺的罕见疾病仍然是一个挑战。在从可能有限的标记数据中学习之前，将未标记数据中的知识提取到基础模型中，为解决这些挑战提供了一条可行的途径。在这项工作中，我们通过半自动化数据管理和结合病理学家领域知识，扩展了数字病理学全幻灯片图像基础模型的最新技术。具体来说，我们结合计算和病理学家领域知识 1 来整理包含 103,000 张幻灯片的多样化数据集，对应于 7.5 亿个图像块，涵盖来自不同固定、染色和扫描协议的数据以及来自欧盟和美国不同适应症和实验室的数据， 2 用于对语义相似的幻灯片和组织块进行分组，3 用于在训练期间增强输入图像。我们在一组公共和内部基准上评估了结果模型，结果表明，尽管我们的基础模型是用少一个数量级的幻灯片进行训练的，但它的性能与竞争模型相当或更好。

Behavioural Cloning in VizDoom
Authors Ryan Spick, Timothy Bradley, Ayush Raina, Pierluigi Vito Amadori, Guy Moss
本文描述了仅使用像素数据作为输入，通过模仿学习 IL 训练自主代理玩《毁灭战士 2》游戏的方法。我们还通过比较相机运动和轨迹数据，探讨强化学习 RL 与 IL 的人性比较。通过行为克隆，我们检查个体模型学习不同行为特征的能力。我们尝试模仿具有不同游戏风格的真实玩家的行为，并发现我们可以训练出比传统人工智能表现得更具攻击性、被动性或更像人类的智能体。我们提出了这些方法，为视频游戏中的代理引入更多深度和类人行为。经过训练的 IL 智能体的表现与我们数据集中的平均玩家相当，同时超过了最差的玩家。

Structure-focused Neurodegeneration Convolutional Neural Network for Modeling and Classification of Alzheimer's Disease
Authors Simisola Odimayo, Chollette C. Olisah, Khadija Mohammed
阿尔茨海默病 AD 是痴呆症的主要形式，对全球构成了日益严峻的挑战，并强调了准确和早期诊断的紧迫性。放射科医生采用机器共振成像 MRI 来区分轻度认知障碍 MCI 和 AD 的临床技术遇到了障碍，因为它们不一致且不可靠。机器学习已被证明为早期 AD 诊断提供了希望。然而，现有模型专注于局灶性细颗粒特征，而没有考虑提供大脑皮层神经变性信息的局灶性结构特征。因此，本文提出了一种机器学习 ML 框架，该框架集成了 Gamma 校正（一种图像增强技术），并包括一种名为 SNeurodCNN 的专注于神经变性的卷积神经网络 CNN 架构，用于区分 AD 和 MCI。 ML 框架利用以结构为重点的阿尔茨海默氏病神经影像倡议 ADNI 数据集的中矢状和旁矢状脑图像观点。通过实验，我们提出的机器学习框架显示出卓越的性能。旁矢状视点集的准确度为 97.8，特异性为 97.0，灵敏度为 98.5。鉴于准确性、特异性和敏感性的增加，中矢状视点被证明可以更深入地了解大脑结构的变化，分别为 98.1、97.2 和 99.0。使用 GradCAM 技术，我们表明我们提出的模型能够捕获存在于额叶、枕叶、小脑和顶叶的 MCI 和 AD 的结构动态。

Attention-Guided Erasing: A Novel Augmentation Method for Enhancing Downstream Breast Density Classification
Authors Adarsh Bhandary Panambur, Hui Yu, Sheethal Bhat, Prathmesh Madhu, Siming Bayer, Andreas Maier
乳腺密度的评估在乳腺癌筛查中至关重要，尤其是在乳腺组织致密比例较高的人群中。本研究引入了一种名为“注意力引导擦除 AGE”的新型数据增强技术，旨在遵循越南队列中 BI RADS 的建议，增强乳房 X 光检查中四种不同乳腺密度类别的下游分类。所提出的方法在迁移学习期间集成了补充信息，利用从使用自监督 DINO 方法训练的视觉变换器骨干导出的视觉注意图。这些图用于擦除乳房X光检查图像中的背景区域，仅向网络揭示致密乳腺组织的潜在区域。通过在具有不同随机概率的迁移学习过程中结合 AGE，与没有 AGE 和传统随机擦除变换的场景相比，我们始终超越分类性能。我们使用公开的 VinDr Mammo 数据集验证我们的方法。具体来说，我们获得了 0.5910 的平均 F1 分数，分别优于对应于没有 AGE 和随机擦除 RE 的场景的 0.5594 和 0.5691 值。

Hyperspectral Image Denoising via Spatial-Spectral Recurrent Transformer
Authors Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, Jiantao Zhou, Yuntao Qian
高光谱图像 HSI 经常受到内部成像机制和环境因素产生的噪声的影响。利用 HSI 特有的领域知识，例如全局谱相关 GSC 和非局部空间自相似性 NSS，对于有效去噪至关重要。现有的方法倾向于独立利用具有多个块的每个知识组件，忽略了 HSI 固有的 3D 性质，其中领域知识紧密相连，从而导致性能不佳。为了应对这一挑战，本文引入了一种用于 HSI 去噪的空间频谱循环变换器 U Net SSRT UNet。所提出的 SSRT UNet 将 NSS 和 GSC 属性集成在单个 SSRT 块中。该块由空间分支和光谱分支组成。频谱分支采用变压器和循环神经网络的组合来执行跨频段的循环计算，从而允许在固定数量的频段之外进行 GSC 开发。同时，空间分支在 GSC 的指导下通过与频谱分支共享密钥和值来对每个频段的 NSS 进行编码。两个分支之间的这种相互作用使得 NSS 和 GSC 能够联合利用，从而避免了它们的独立处理。实验结果表明我们的方法优于几种替代方法。

A foundation for exact binarized morphological neural networks
Authors Theodore Aouad, Hugues Talbot
训练和运行深度神经网络 NN 通常需要大量计算和能源密集型专用硬件，例如GPU、TPU....减少计算和功耗成本的一种方法是使用二元权重神经网络，但这些神经网络很难训练，因为符号函数具有不平滑的梯度。我们提出了一种基于数学形态学MM的模型，它可以在某些条件下对ConvNet进行二值化而不损失性能，但这些条件在现实世界场景中可能不容易满足。为了解决这个问题，我们提出了两种新的近似方法，并为使用 MM 的 ConvNets 二值化开发了一个强大的理论框架。我们还提出正则化损失来改进优化。

Gnuastro: visualizing the full dynamic range in color images
Authors Ra l Infante Sainz, Mohammad Akhlaghi
颜色在多波长天文图像的可视化、解释和分析中起着至关重要的作用。然而，生成准确代表天文源的完整动态范围的彩色图像具有挑战性。作为回应，Gnuastro v0.22 引入了程序 astscript color fade Gray ，该程序在 Gnuastro 手册中有详细记录。它采用非线性变换将 8 位 RGB 红绿蓝值分配给较亮的像素，而较暗的像素则以反灰度显示。这种方法可以同时可视化同一图像中的低表面亮度特征。

A Large-scale Empirical Study on Improving the Fairness of Deep Learning Models
Authors Junjie Yang, Jiajun Jiang, Zeyu Sun, Junjie Chen
公平性一直是影响深度学习模型在实际实践中采用的关键问题。为了提高模型的公平性，许多现有方法被提出并评估为在各自的环境中有效。然而，目前还没有对它们进行系统评价，在相同背景下进行综合比较，这使得人们很难理解它们之间的性能差异，阻碍了它们的研究进展和实际应用。为了填补这一空白，本文致力于进行首次大规模实证研究，以全面比较现有最先进的公平性改进技术的性能。具体来说，我们针对图像分类广泛使用的应用场景，利用三个不同的数据集和五个常用的性能指标来评估不同类别的总共 13 种方法。我们的研究结果揭示了每种方法在不同数据集和敏感属性上的性能存在巨大差异，表明许多现有方法对特定数据集的过度拟合。此外，不同的公平性评价指标由于侧重点不同，其评价结果也存在显着差异。总体而言，我们观察到预处理方法和中处理方法优于后处理方法，其中预处理方法表现出最佳性能。我们的实证研究为增强深度学习模型的公平性提供了全面的建议。

Dual-Channel Reliable Breast Ultrasound Image Classification Based on Explainable Attribution and Uncertainty Quantification
Authors Shuge Lei, Haonan Hu, Dasheng Sun, Huabin Zhang, Kehong Yuan, Jian Dai, Jijun Tang, Yan Tong
本文主要针对乳腺超声图像的分类任务，对分类结果的可靠性度量进行研究。我们根据所提出的推理可靠性和预测可靠性分数提出了双通道评估框架。对于推理可靠性评估，优雅地应用了基于改进的特征归因算法 SP RISA 的人类对齐和医生同意的推理原理。不确定性量化用于通过测试时间增强来评估预测可靠性。该可靠性评估框架的有效性已在我们的乳腺超声临床数据集 YBUS 上得到验证，其稳健性在公共数据集 BUSI 上得到验证。

DME-Driver: Integrating Human Decision Logic and 3D Scene Perception in Autonomous Driving
Authors Wencheng Han, Dongqian Guo, Cheng Zhong Xu, Jianbing Shen
在自动驾驶领域，自动驾驶汽车系统的两个重要特征是决策逻辑的可解释性和环境感知的准确性。本文介绍了DME Driver，这是一种新型自动驾驶系统，可增强自动驾驶系统的性能和可靠性。 DME驱动程序利用强大的视觉语言模型作为决策者，并利用面向规划的感知模型作为控制信号生成器。为了确保驾驶决策可解释且可靠，逻辑决策器是基于大型视觉语言模型构建的。该模型遵循经验丰富的人类驾驶员所采用的逻辑，并以类似的方式做出决策。另一方面，精确控制信号的生成依赖于精确、详细的环境感知，而这正是 3D 场景感知模型的优势所在。因此，采用面向规划的感知模型作为信号发生器。它将决策者做出的逻辑决策转化为自动驾驶汽车的准确控制信号。为了有效地训练所提出的模型，创建了一个新的自动驾驶数据集。该数据集包含各种人类驾驶员行为及其潜在动机。

Deep Learning for Visual Neuroprosthesis
Authors Peter Beech, Shanshan Jia, Zhaofei Yu, Jian K. Liu
视觉通路涉及复杂的细胞和区域网络，有助于视觉信息的编码和处理。虽然视觉感知的某些方面已被了解，但关于视觉编码的确切机制和沿路径的视觉信息的组织仍有许多未解答的问题。本章讨论视觉感知的重要性以及与理解视觉信息如何在大脑中编码和表示相关的挑战。此外，本章介绍了旨在增强或替代身体功能的神经假体设备的概念，并强调了在实施此类设备时构建视觉通路计算模型的重要性。

Unifying Graph Contrastive Learning via Graph Message Augmentation
Authors Ziyan Zhang, Bo Jiang, Jin Tang, Bin Luo
图对比学习通常首先进行图数据增强 GDA，然后使用对比学习管道来训练 GNN。众所周知，GDA 是图对比学习的一个重要问题。最近开发了各种GDA，主要涉及丢弃或扰动边、节点、节点属性和边属性。然而，据我们所知，它仍然缺乏适合不同类型图数据的通用且有效的增强器。为了解决这个问题，在本文中，我们首先介绍图数据的图消息表示。在此基础上，我们提出了一种新颖的图消息增强 GMA，这是一种重新制定许多现有 GDA 的通用方案。所提出的统一GMA不仅为理解许多现有的GDA提供了新的视角，而且还为图自监督学习任务提供了通用且更有效的图数据增强。此外，GMA 引入了一种简单的方法来实现混合增强器，这对于图像来说很自然，但对于图形来说通常具有挑战性。基于所提出的 GMA，我们提出了一种统一的图对比学习，称为图消息对比学习 GMCL，它采用归因引导的通用 GMA 进行图对比学习。

Machine Learning Applications in Traumatic Brain Injury Diagnosis and Prognosis: A Spotlight on Mild TBI and CT Imaging
Authors Hanem Ellethy, Shekhar S. Chandra, Viktor Vegh
创伤性脑损伤 TBI 构成了重大的全球公共卫生挑战，导致高发病率和死亡率，并给全球医疗保健系统带来沉重的经济负担。 TBI 的诊断和预后依赖于通常使用计算机断层扫描 CT 扫描仪采集的临床和影像数据的结合。针对这种复杂的情况，应对 TBI 带来的多方面挑战需要创新的数据驱动方法。因此，我们总结了应用于 TBI 临床和图像的最先进的机器学习 ML 和深度学习 DL 技术，特别关注轻度 TBI mTBI。我们探索了所使用的丰富的 ML 和 DL 技术，并强调了它们在 TBI 中的影响。我们根据 TBI 严重程度对 ML 和 DL 方法进行分类，并展示它们在 mTBI 和中度至重度 TBI 场景中的应用。最后，我们强调了 ML 和 DL 在 mTBI 诊断中的作用（传统方法往往无法满足这一要求），并评论了基于 CT 的 ML 在 TBI 中应用的潜力。

Automated Detection of Myopic Maculopathy in MMAC 2023: Achievements in Classification, Segmentation, and Spherical Equivalent Prediction
Authors Yihao Li, Philippe Zhang, Yubo Tan, Jing Zhang, Zhihan Wang, Weili Jiang, Pierre Henri Conze, Mathieu Lamard, Gwenol Quellec, Mostafa El Habib Daho
近视性黄斑变性是近视最常见的并发症，也是病理性近视患者视力丧失的主要原因。早期发现和及时治疗对于预防近视黄斑病引起的视力损害至关重要。这是我们参加的近视黄斑病变分析挑战赛 MMAC 的焦点。在任务 1（近视性黄斑病变的分类）中，我们采用了对比学习框架（特别是 SimCLR），通过有效地从未标记数据中捕获丰富的特征来提高分类准确性。这种方法不仅提高了对数据的内在理解，而且提高了分类模型的性能。对于近视黄斑病变加病变的任务2分割，我们开发了针对不同病变分割任务的独立分割模型，并实施了测试时间增强策略以进一步增强模型的性能。对于任务3的球当量预测，我们根据数据集的数据分布设计了深度回归模型，并采用集成策略来提高模型的预测精度。我们获得的结果令人鼓舞，使我们能够跻身分类任务前 6 名、分割任务前 2 名和预测任务前 1 名。

Invisible Reflections: Leveraging Infrared Laser Reflections to Target Traffic Sign Perception
Authors Takami Sato, Sri Hrushikesh Varma Bhupathiraju, Michael Clifford, Takeshi Sugawara, Qi Alfred Chen, Sara Rampazzi
所有车辆都必须遵守交通行为规则，无论车辆是人类驾驶还是联网自动驾驶车辆 CAV。路标指示当地现行规则，例如速度限制和让行或停车要求。最近的研究表明，诸如在标志上添加贴纸或投影彩色补丁等攻击会导致 CAV 误解，从而导致潜在的安全问题。人类可以看到并可能防御这些攻击。但人类无法检测到他们无法观察到的东西。我们开发了一种有效的物理世界攻击，利用无滤镜图像传感器的灵敏度和人类不可见的红外激光反射 ILR 的特性。该攻击旨在影响 CAV 摄像头和感知，通过诱导错误分类来破坏交通标志识别。在这项工作中，我们制定了基于 ILR 的交通标志感知攻击成功的威胁模型和要求。我们通过针对四个红外敏感摄像机上的两种主要交通标志识别架构的真实实验来评估 ILR 攻击的有效性。我们的黑盒优化方法允许攻击在室内、静态场景中实现高达 100 的攻击成功率，在室外、移动车辆场景中实现高达 80.5 的攻击成功率。我们发现最新最先进的可认证防御对于 ILR 攻击无效，因为它错误地认证了 33.5 的案例。

Segment Anything Model for Medical Image Segmentation: Current Applications and Future Directions
Authors Yichi Zhang, Zhenrong Shen, Rushi Jiao
由于提示固有的灵活性，基础模型已成为自然语言处理和计算机视觉领域的主导力量。最近推出的 Segment Anything Model SAM 标志着提示驱动范式在图像分割领域的显着扩展，从而引入了大量以前未开发的功能。然而，考虑到自然图像和医学图像之间的巨大区别，其应用于医学图像分割的可行性仍然不确定。在这项工作中，我们全面概述了近期旨在将 SAM 的功效扩展到医学图像分割任务的努力，包括经验基准测试和方法适应。此外，我们还探讨了 SAM 在医学图像分割中的作用的未来研究方向的潜在途径。虽然迄今为止，将 SAM 直接应用于医学图像分割并不能在多模态和多目标医学数据集上产生令人满意的性能，但从这些工作中收集到的大量见解可以为塑造医学图像分析领域的基础模型的发展轨迹提供宝贵的指导。

GRAM: Global Reasoning for Multi-Page VQA
Authors Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman
基于 Transformer 的大型语言模型的使用越来越多，带来了处理长序列的挑战。在文档视觉问答DocVQA中，领先的方法集中在单页设置，而文档可以跨越数百页。我们提出了 GRAM，一种将预训练的单页模型无缝扩展到多页设置的方法，而不需要大量的计算预训练。为此，我们利用单页面编码器进行本地页面级别理解，并通过文档级别指定层和可学习标记对其进行增强，从而促进跨页面的信息流以进行全局推理。为了强制我们的模型利用新引入的文档级标记，我们提出了一种量身定制的偏差适应方法。为了在解码过程中节省额外的计算量，我们使用 C 前模型引入了可选的压缩阶段，这减少了编码序列的长度，从而允许在质量和延迟之间进行权衡。

conv_einsum: A Framework for Representation and Fast Evaluation of Multilinear Operations in Convolutional Tensorial Neural Networks
Authors Tahseen Rabbani, Jiahao Su, Xiaoyu Liu, David Chan, Geoffrey Sangston, Furong Huang
现代卷积网络继续在大量视觉和图像分类任务中取得最先进的结果，但代价是增加参数。在不牺牲太多表达能力的情况下压缩网络的一种策略是将其重塑为张量神经网络 TNN，这是其各层的高阶张量化，然后进行因式分解，例如 CP 分解，它将权重降低到其权重。关键基础组件。通过 TNN 的传递可以表示为多线性运算 MLO 的序列，其中评估路径可以极大地影响所产生的浮点运算 FLOP 的数量。虽然诸如流行的 einsum 之类的函数可以评估简单的 MLO（例如收缩），但现有的实现无法处理多路卷积，从而导致很少评估通过张量化卷积层的最佳评估路径如何提高训练速度。在本文中，我们开发了一个统一框架，用于将张量卷积层表示为类似字符串的 einsum 和元算法 conv einsum，它能够以 FLOPs 最小化方式评估这些字符串。

Realism in Action: Anomaly-Aware Diagnosis of Brain Tumors from Medical Images Using YOLOv8 and DeiT
Authors Seyed Mohammad Hossein Hashemi, Leila Safari, Amirhossein Dadashzade Taromi
在医学领域，由于患者群体中肿瘤的罕见性，从图像中可靠地检测和分类脑肿瘤仍然是一个艰巨的挑战。因此，在异常情况下检测肿瘤的能力对于确保及时干预和改善患者预后至关重要。这项研究通过利用深度学习 DL 技术来检测和分类具有挑战性的情况下的脑肿瘤，从而解决了这个问题。国家脑图谱实验室 NBML 整理的数据集包含 81 名患者，其中 30 名肿瘤病例和 51 名正常病例。检测和分类管道分为两个连续的任务。检测阶段涉及全面的数据分析和预处理，以将图像样本的数量和每类患者的数量修改为每1个肿瘤9个正常的异常分布，以符合现实世界的场景。接下来，除了测试的通用评估指标之外，我们还采用了一种称为患者对患者 PTP 的新颖性能评估方法，重点关注模型的实际评估。在检测阶段，我们微调了YOLOv8n检测模型来检测肿瘤区域。随后的测试和评估在通用评估指标和 PTP 指标方面都取得了有竞争力的表现。此外，使用 Data Efficient Image Transformer DeiT 模块，我们从微调的 ResNet152 中提炼出 Vision Transformer ViT 模型，作为分类阶段的教师。

Analysis and Validation of Image Search Engines in Histopathology
Authors Isaiah Lahr, Saghir Alfasly, Peyman Nejat, Jibran Khan, Luke Kottom, Vaishnavi Kumbhar, Areej Alsaafin, Abubakr Shafique, Sobhan Hemati, Ghazal Alabtah, Nneka Comfere, Dennis Murphee, Aaron Mangold, Saba Yasir, Chady Meroueh, Lisa Boardman, Vijay H. Shah, Joaquin J. Garcia, H.R. Tizhoosh
在组织学和组织病理学图像档案中搜索相似图像是一项至关重要的任务，它可以帮助出于各种目的（从分类和诊断到预后和预测）进行患者匹配。整个载玻片图像 WSI 是安装在载玻片上的组织标本的高度详细的数字表示。将 WSI 与 WSI 进行匹配可以作为患者匹配的关键方法。在本文中，我们报告了对四种视觉词包 BoVW、Yottixel、SISH、RetCCL 及其一些潜在变体的搜索方法的广泛分析和验证。我们分析他们的算法和结构并评估他们的性能。在本次评估中，我们利用了四个包含 1269 名患者的内部数据集和三个包含 1207 名患者的公共数据集，总共来自五个主要站点的 38 个不同类别亚型的超过 200,000 个补丁。某些搜索引擎（例如 BoVW）表现出显着的效率和速度，但准确性较低。相反，Yottixel 等搜索引擎展示了效率和速度，提供了适度准确的结果。最近的提议（包括 SISH）显示效率低下并且产生不一致的结果，而 RetCCL 等替代方案在准确性和效率方面都证明不足。

Autonomous Navigation in Complex Environments
Authors Andrew Gerstenslager, Jomol Lewis, Liam McKenna, Poorva Patel
本文探讨了 CNN DNN 网络融合在模拟环境中构建机器人导航控制器的应用。模拟环境的构建是为了模拟地下救援情况，以便自主代理的任务是在未知的洞穴系统中寻找目标。模仿学习用于训练控制算法，以使用激光雷达和摄像头数据来导航空间并找到目标。

Interpersonal Relationship Analysis with Dyadic EEG Signals via Learning Spatial-Temporal Patterns
Authors Wenqi Ji, Fang liu, Xinxin Du, Niqi Liu, Chao Zhou, Mingjin Yu, Guozhen Zhao, Yong Jin Liu
人际关系质量在社会和职业环境中至关重要。现有的人际关系分析大多依赖于主观的自我报告，而客观的量化仍然具有挑战性。在本文中，我们提出了一种利用二元脑电图信号派生的时空模式的新型社会关系分析框架，可用于定量测量企业团队建设中的团队合作，并评估精神治疗中治疗师和患者之间的人际动态。首先，我们构建了一个二元脑电图数据集，其中包括 72 对参与者，他们有两种关系，陌生人或朋友，同时观看情感视频。然后，我们提出了一种针对二元受试者脑电图信号的深度神经网络，其中我们结合了用于表征脑电图通道之间的人际关系的动态图卷积神经网络和用于从时间序列中提取信息的一维卷积。为了从两个脑电图记录中获得能够很好地代表两个受试者关系的特征向量，我们集成了深度典型相关分析和三元组损失来训练网络。

Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features
Authors Ali Falahati, Mohammad Karim Safavi, Ardavan Elahi, Farhad Pakdaman, Moncef Gabbouj
提供具有高效比特率的高质量视频是视频行业的主要挑战。传统的一刀切的比特率阶梯方案效率低下，并且由于需要大量编码，在计算上达到最佳内容感知决策是不切实际的。为了缓解这个问题，我们提出了一种使用迁移学习和时空特征的比特率和复杂性有效的比特率阶梯预测方法。我们建议 1 使用来自众所周知的预训练 DNN 的特征图来预测有限训练数据的速率质量行为，2 通过预测最高质量的最小比特率并将其用于顶级梯级来提高最高质量梯级效率。在 102 个视频场景上测试的方法表明，与暴力破解相比，以 1.71 BD 速率为代价，复杂性降低了 94.1。

MPN: Leveraging Multilingual Patch Neuron for Cross-lingual Model Editing
Authors Nianwen Si, Hao Zhang, Weiqiang Zhang
大型语言模型以编码大量事实知识而闻名，但由于外部信息不断变化的性质，它们常常变得过时。应对这一挑战的一个有希望的解决方案是利用模型编辑方法以有效的方式更新知识。然而，现有的模型编辑技术大多数仅限于单语言框架，无法解决多语言模型跨语言知识同步的关键问题。为了解决这个问题，我们提出了一种简单而有效的方法来训练多语言补丁神经元来存储跨语言知识。它可以轻松适应现有方法，以增强跨语言编辑能力。为了评估我们的方法，我们使用 XNLI 数据集和自行构建的 XFEVER 数据集进行实验。实验结果表明，我们提出的方法在跨语言编辑任务中实现了性能的提高，而不需要对原始方法进行过多修改，从而展示了其用户友好的特性。

UGGNet: Bridging U-Net and VGG for Advanced Breast Cancer Diagnosis
Authors Tran Cao Minh, Nguyen Kim Quoc, Phan Cong Vinh, Dang Nhu Phu, Vuong Xuan Chi, Ha Minh Tan
在医学成像领域，乳腺超声已成为早期发现乳腺癌的重要诊断工具。然而，诊断患处位置和病变程度的准确性取决于医生的经验。在本文中，我们提出了一种名为 UGGNet 的新颖模型，结合了 U Net 和 VGG 架构的强大功能来增强乳腺超声图像分析的性能。该模型的 U Net 组件有助于准确分割病变，而 VGG 组件则利用深度卷积层来提取特征。 UGGNet 中这两种架构的融合旨在优化分割和特征表示，为乳腺超声图像的准确诊断提供全面的解决方案。

Preserving Silent Features for Domain Generalization
Authors Chujie Zhao, Tianren Zhang, Feng Chen
域泛化 DG 旨在提高在多个已知训练域上训练的模型相对于未见过的测试域的泛化能力。先前的工作表明，自监督对比预训练提高了模型在下游任务上的鲁棒性。然而，在本文中，我们发现自监督模型并没有表现出比在 DG 设置中的相同数据集上预训练的监督模型更好的泛化性能。我们认为这是由于自监督对比学习提取的更丰富的类内判别特征（我们称之为“沉默特征”）在监督微调过程中被抑制。这些静默功能可能包含在测试域上更通用的功能。在这项工作中，我们对这种特征抑制现象进行建模和分析，并从理论上证明，在某些条件下保留沉默特征可以实现较低的预期测试域风险。鉴于此，我们提出了一种简单而有效的方法，称为STEP静默特征保留，通过减轻监督微调过程中静默特征的抑制来提高自监督对比学习预训练模型的泛化性能。

Short-Time Fourier Transform for deblurring Variational Autoencoders
Authors Vibhu Dalal
变分自动编码器 VAE 是强大的生成模型，但与替代生成技术的输出相比，其生成的样本存在特征模糊性。为了解决这个问题，人们进行了大量的研究工作，并且一些工作集中于修改证据下限 ELBO 的重建项。特别是，许多人已经尝试用频域中的损失来增加重建损失。此类损失函数通常采用傅立叶变换来明确惩罚生成样本中缺乏高频成分，这些成分导致了清晰的视觉特征。在本文中，我们探讨了先前此类方法尚未被充分理解的方面，并针对这些问题提出了对重建项的增强。我们的推理引导我们使用短时傅立叶变换并强调输入和输出样本之间的局部相位相干性。

Vision Transformers and Bi-LSTM for Alzheimer's Disease Diagnosis from 3D MRI
Authors Taymaz Akan, Sait Alp, Mohammad A. N Bhuiyanb
阿尔茨海默氏症是一种脑部疾病，随着时间的推移会变得更严重，并影响记忆、思维和行为。如果及早诊断，阿尔茨海默病 AD 可以得到治疗和管理，从而减缓症状的进展并提高生活质量。在这项研究中，我们建议使用 Visual Transformer ViT 和 bi LSTM 处理 MRI 图像以诊断阿尔茨海默病。我们使用 ViT 从 MRI 中提取特征，然后将它们映射到特征序列。然后，我们使用 Bi LSTM 序列建模来保持相关特征之间的相互依赖关系。此外，我们使用来自阿尔茨海默病神经影像倡议 ADNI 的数据评估了所提出的 AD 患者二元分类模型的性能。最后，我们根据文献中的其他深度学习模型评估了我们的方法。

A Physics-guided Generative AI Toolkit for Geophysical Monitoring
Authors Junhuan Yang, Hanchen Wang, Yi Sheng, Youzuo Lin, Lei Yang
全波形反演 FWI 在地球科学探索地下方面发挥着至关重要的作用。它利用地震波对地下速度图进行成像。随着机器学习 ML 技术的发展，使用 ML 执行 FWI 任务的数据驱动方法已经出现，与传统的基于物理的方法相比，它提供了更高的准确性并降低了计算成本。然而，地球科学中的一个常见挑战，即非特权数据，严重限制了机器学习的有效性。由于环境的复杂性，模型修剪是地球科学中必不可少的一步，在模型修剪过程中，这个问题变得更加严重。为了解决这个问题，我们引入了 EdGeo 工具包，它采用由物理原理指导的基于扩散的模型来生成高保真度速度图。该工具包使用声波方程生成相应的地震波形数据，有助于对修剪后的机器学习模型进行微调。我们的结果表明，在不同的剪枝率下，SSIM 分数显着提高，MAE 和 MSE 均降低。

Super-Resolution Multi-Contrast Unbiased Eye Atlases With Deep Probabilistic Refinement
Authors Ho Hin Lee, Adam M. Saunders, Michael E. Kim, Samuel W. Remedios, Yucheng Tang, Qi Yang, Xin Yu, Shunxing Bao, Chloe Cho, Louise A. Mawn, Tonia S. Rex, Kevin L. Schey, Blake E. Dewey, Jeffrey M. Spraggins, Jerry L. Prince, Yuankai Huo, Bennett A. Landman
不同人群的眼睛形态差异很大，尤其是眼眶和视神经。这些变化限制了将眼器官的群体特征推广到无偏空间参考的可行性和鲁棒性。为了解决这些限制，我们提出了一种创建高分辨率无偏差眼睛图集的过程。首先，为了从低平面分辨率扫描（与高平面分辨率扫描）中恢复空间细节，我们应用了基于深度学习的超分辨率算法。然后，我们使用一小部分主题扫描，通过基于迭代度量的配准生成初始无偏参考。我们将剩余的扫描注册到该模板，并使用无监督的深度概率方法细化模板，该方法生成更广泛的变形场以增强器官边界对齐。我们使用四种不同 MRI 组织对比的磁共振图像来演示该框架，从而生成四个空间对齐的图册。对于每个组织对比度，我们发现与由刚性、仿射和可变形变换组成的标准配准框架相比，四个标记区域的平均 Dice 得分显着提高。这些结果强调了使用我们提出的过程对眼器官和边界进行有效对齐。

AccidentGPT: Large Multi-Modal Foundation Model for Traffic Accident Analysis
Authors Kebin Wu, Wenbin Li, Xiaofei Xiao
交通事故分析对于加强公共安全和制定道路法规至关重要。传统方法虽然广泛使用，但往往受到手动分析过程、主观决策、单模态输出以及与敏感数据相关的隐私问题的限制。本文介绍了AccidentGPT的思想，这是交通事故分析的基础模型，它结合多模态输入数据，自动重建具有动态细节的事故过程视频，并进一步提供多模态输出的多任务分析。 AccidentGPT 的设计具有多模态提示和面向任务适应性的反馈、利用标记和未标记数据的混合训练模式以及用于数据隐私的边缘云分割配置。为了充分实现该模型的功能，我们提出了几个研究机会。

Evolution of urban areas and land surface temperature
Authors Sudipan Saha, Tushar Verma, Dario Augusto Borges Oliveira
随着全球人口的增长，我们的城市不断扩张以容纳不断增长的人口。城市的扩张通常会导致周边地区的吞没。然而，城市地区的这种扩张可能会导致地表温度 LST 增加的地区增加。通过将每个夏季视为一个数据点，我们形成 LST 多年时间序列并将其聚类以获得时空模式。我们从这些模式中观察到一些有趣的现象，例如，一些集群与建成区域表现出合理的相似性，而具有高时间变化的位置在外围区域中更为常见。此外，随着发展活动向某个方向倾斜，城市的LST质量中心多年来一直在发生变化。

Prompt-driven Latent Domain Generalization for Medical Image Classification
Authors Siyuan Yan, Chi Liu, Zhen Yu, Lie Ju, Dwarikanath Mahapatra, Brigid Betz Stablein, Victoria Mar, Monika Janda, Peter Soyer, Zongyuan Ge
用于医学图像分析的深度学习模型很容易受到数据集伪影偏差、相机变化、成像站差异等引起的分布变化的影响，从而导致现实世界临床环境中的诊断不可靠。领域泛化 DG 方法旨在训练多个领域的模型，使其在未见过的领域上表现良好，为解决该问题提供了一个有希望的方向。然而，现有的 DG 方法假设每个图像的域标签可用且准确，这通常仅适用于有限数量的医学数据集。为了应对这些挑战，我们提出了一种新颖的 DG 框架，用于不依赖域标签的医学图像分类，称为提示驱动的潜在域泛化 PLDG。 PLDG 由无监督领域发现和即时学习组成。该框架首先通过聚类与风格特征相关的偏差来发现伪域标签，然后利用协作域提示来指导 Vision Transformer 从发现的不同域中学习知识。为了促进不同提示之间的跨领域知识学习，我们引入了领域提示生成器，它可以实现领域提示和共享提示之间的知识共享。另外还采用了域混合策略，以获得更灵活的决策裕度，并降低了错误域分配的风险。对三个医学图像分类任务和一个去偏任务的广泛实验表明，我们的方法可以在不依赖域标签的情况下实现与传统 DG 算法相当甚至更好的性能。

CANAMRF: An Attention-Based Model for Multimodal Depression Detection
Authors Yuntao Wei, Yuzhe Zhang, Shuyang Zhang, Hong Zhang
多模态抑郁症检测是一个重要的研究课题，旨在利用多模态数据预测人类心理状态。以前的方法平等地对待不同的模态，并通过简单的数学运算融合每种模态，而不测量它们之间的相对重要性，这无法为下游抑郁症任务获得表现良好的多模态表示。为了解决上述问题，我们提出了一种具有自适应多模态循环融合 CANAMRF 的跨模态注意力网络，用于多模态抑郁症检测。 CANAMRF 由多模态特征提取器、自适应多模态循环融合模块和混合注意力模块构成。

Automated Localization of Blood Vessels in Retinal Images
Authors Vahid Mohammadi Safarzadeh
血管结构是视网膜最重要的部分之一，医生可以通过分析其特征来检测许多疾病。视网膜图像中血管的定位是医学图像分析中的一个重要过程。由于存在明亮和黑暗的病变，这个过程也更具挑战性。在本论文中，分析了两种处理健康和不健康病理性视网膜图像的自动血管定位方法。每种方法都包含两个主要步骤，两种方法中的第二步是相同的。第一步，使用算法来减少明亮病变的影响。在方法 1 中，该算法基于 K Means 分割，在方法 2 中，该算法基于正则化过程。在这两种方法的第二步中，使用多尺度线算子来定位线形血管结构并忽略通常被认为具有不规则图案的暗病灶。在介绍这些方法之后，根据两个公开数据集 DRIVE 和 STARE 的图像分割结果，对这些方法以及文献中最先进的解决方案进行了详细的定量和定性比较，被报道。

A Surrogate-Assisted Extended Generative Adversarial Network for Parameter Optimization in Free-Form Metasurface Design
Authors Manna Dai, Yang Jiang, Feng Yang, Joyjit Chattoraj, Yingzhi Xia, Xinxing Xu, Weijiang Zhao, My Ha Dao, Yong Liu
超表面在第五代5G微波通信中有着广泛的应用。在超表面家族中，与规则形状的超表面相比，自由形式超表面在实现复杂的光谱响应方面表现出色。然而，自由形式超表面的传统数值方法非常耗时并且需要专业知识。另外，最近的研究表明深度学习在加速和完善超表面设计方面具有巨大潜力。在这里，我们介绍 XGAN，这是一种扩展的生成对抗网络 GAN，可以替代高质量的自由形式超表面设计。所提出的替代方案为 XGAN 提供了物理约束，以便 XGAN 可以根据输入光谱响应准确地整体生成超表面。在涉及 20000 个自由形式超表面设计的对比实验中，XGAN 的平均精度达到 0.9734，并且比传统方法快 500 倍。

Forensic Video Analytic Software
Authors Anton Jeran Ratnarajah, Sahani Goonetilleke, Dumindu Tissera, Kapilan Balagopalan, Ranga Rodrigo
执法官员在证据提取过程中严重依赖取证视频分析 FVA 软件。然而，当今的 FVA 软件复杂、耗时、依赖设备且昂贵。发展中国家正在努力进入这个通往安全避难所的门户。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com