【AI视野·今日CV 计算机视觉论文速览第271期】Thu, 19 Oct 2023_exploring decision-based black-box attacks on face-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/134017948

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 19 Oct 2023
Totally 63 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection
Authors Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi Ling Chen, Zuxuan Wu, Lu Yuan, Yu Gang Jiang
长尾对象检测 LTOD 旨在处理现实世界数据集中的极端数据不平衡，其中许多尾类实例稀缺。一种流行的策略是使用图像级标签探索额外的数据，但由于 1 语义模糊性，图像级标签仅捕获图像的显着部分，忽略图像内剩余的丰富语义和 2 标签的位置敏感性，它产生的结果有限很大程度上取决于原始图像的位置和裁剪，在随机裁剪等数据转换后可能会发生变化。为了解决这个问题，我们提出了 RichSem，这是一种简单但有效的方法，它可以稳健地从粗略位置学习丰富的语义，而不需要精确的边界框。 RichSem 利用图像中丰富的语义，然后将其用作训练检测器的附加软监督。具体来说，我们向检测器添加一个语义分支来学习这些软语义并增强长尾对象检测的特征表示。语义分支仅用于训练，在推理过程中被删除。 RichSem 在不同主干网和检测器下对 LVIS 的整体和稀有类别实现了一致的改进。我们的方法无需复杂的培训和测试程序即可实现最先进的性能。此外，我们通过额外的实验展示了我们的方法在其他长尾数据集上的有效性。

Object-aware Inversion and Reassembly for Image Editing
Authors Zhen Yang, Dinggang Gui, Wen Wang, Hao Chen, Bohan Zhuang, Chunhua Shen
通过比较编辑任务中的原始提示和目标提示，我们可以得到许多编辑对，每个编辑对由一个对象及其对应的编辑目标组成。为了在保持输入图像保真度的同时实现可编辑性，现有的编辑方法通常涉及固定数量的反转步骤，将整个输入图像投影到其噪声较大的潜在表示，然后进行由目标提示引导的去噪过程。然而，我们发现，由于不同的编辑难度，实现理想编辑结果的最佳反转步骤数在不同的编辑对之间存在显着差异。因此，当前依赖于固定数量的反演步骤的文献会产生次优的生成质量，特别是在处理自然图像中的多个编辑对时。为此，我们提出了一种新的图像编辑范例，称为对象感知反转和重组 OIR，以实现对象级细粒度编辑。具体来说，我们设计了一种新的搜索度量，通过共同考虑目标的可编辑性和非编辑区域的保真度，确定每个编辑对的最佳反转步骤。在编辑图像时，我们使用搜索指标来找到每个编辑对的最佳反转步骤。然后，我们分别编辑这些编辑对，以避免概念不匹配。随后，我们提出了一个额外的重组步骤，将各个编辑结果和非编辑区域无缝集成，以获得最终的编辑图像。为了系统地评估我们方法的有效性，我们收集了两个数据集，分别用于对单对象和多对象编辑进行基准测试。

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
Authors Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal
文本到图像 T2I 一代在过去几年中出现了显着增长。尽管如此，使用 T2I 模型生成图表的工作却很少。图表是一种符号示意表示，它使用结构丰富且空间复杂的可视化来解释信息，例如相关对象、文本标签、方向箭头、连接线等的密集组合。现有最先进的 T2I 模型在图表生成时经常失败，因为当许多对象通过复杂关系（例如箭头线）密集连接时，它们缺乏细粒度的对象布局控制，并且通常无法呈现可理解的文本标签。为了解决这一差距，我们提出了 DiagrammerGPT，这是一种新颖的两阶段文本到图表生成框架，它利用 LLM 的布局指导功能（例如 GPT 4）来生成更准确的开放域、开放平台图表。在第一阶段，我们使用 LLM 在规划者审核员反馈循环中生成并迭代完善图表计划，该循环描述所有实体对象和文本标签、它们的关系箭头或线条以及它们的边界框布局。在第二阶段，我们使用图表生成器DiagramGLIGEN和文本标签渲染模块来按照图表计划生成图表。为了对文本到图表生成任务进行基准测试，我们引入了 AI2D Caption，这是一个构建在 AI2D 数据集之上的密集注释图表数据集。我们定量和定性地表明，我们的DiagrammerGPT 框架可以生成更准确的图表，优于现有的T2I 模型。我们还提供全面的分析，包括开放域图生成、不同平台中的矢量图形图生成、人在环图计划编辑以及多模式规划审核员法学硕士（例如 GPT 4Vision）。

HSTR-Net: Reference Based Video Super-resolution for Aerial Surveillance with Dual Cameras
Authors H. Umut Suluhan, Hasan F. Ates, Bahadir K. Gunturk
空中监视需要高时空分辨率的 HSTR 视频，以便更准确地检测和跟踪物体。对于广域监视WAS尤其如此，其中测量的区域很大而感兴趣的对象很小。本文提出了一种使用基于参考的超分辨率 RefSR 生成 HSTR 视频的双摄像头系统。对于同一场景，一台摄像机捕获高空间分辨率低帧速率 HSLF 视频，而另一台摄像机同时捕获低空间分辨率高帧速率 LSHF 视频。提出了一种新颖的深度学习架构来融合 HSLF 和 LSHF 视频源并在输出处合成 HSTR 视频帧。所提出的模型结合了光流估计以及通道方式和空间注意机制，以捕获两个视频源的帧之间的精细运动和复杂的依赖性。仿真表明，所提出的模型在 PSNR 和 SSIM 指标方面比现有的基于参考的 SR 技术提供了显着改进。

On the Benefit of Generative Foundation Models for Human Activity Recognition
Authors Zikang Leng, Hyeokhyen Kwon, Thomas Pl tz
在人类活动识别 HAR 中，注释数据的有限可用性提出了重大挑战。受到生成式人工智能最新进展（包括大型语言模型法学硕士和运动合成模型）的启发，我们相信生成式人工智能可以通过从文本描述自主生成虚拟 IMU 数据来解决这种数据稀缺问题。除此之外，我们还重点关注了几个可以从社区生成人工智能中受益的有前途的研究途径，包括生成基准数据集、开发特定于 HAR 的基础模型、探索 HAR 中的层次结构、分解复杂的活动以及在

Exploring Fairness in Pre-trained Visual Transformer based Natural and GAN Generated Image Detection Systems and Understanding the Impact of Image Compression in Fairness
Authors Manjary P. Gangan, Anoop Kadan, Lajish V L
构建能够从相机拍摄的真实图像中准确分类或检测假图像的计算模型不仅足够，而且确保这些计算模型是否足够公平或产生最终可能损害某些社会群体的有偏见的结果也很重要或造成严重的安全威胁。探索取证算法的公平性是纠正这些偏见的第一步。由于视觉 Transformer 由于能够产生高精度而最近被广泛用于大多数基于图像分类的任务，因此本研究试图探索基于 Transformer 的图像取证算法中的偏差，这些算法对自然图像和 GAN 生成的图像进行分类。通过获取偏见评估语料库，本研究使用广泛的个人和成对偏见评估措施来分析性别、种族、情感和交叉领域的偏见。由于图像压缩算法的泛化性是取证任务中需要考虑的重要因素，因此本研究还分析了图像压缩对模型偏差的作用。

On the use of Vision-Language models for Visual Sentiment Analysis: a study on CLIP
Authors Cristina Bustos, Carles Civit, Brian Du, Albert Sole Ribalta, Agata Lapedriza
这项工作提出了如何利用 CLIP 嵌入空间来执行视觉情感分析的研究。我们试验了建立在 CLIP 嵌入空间之上的两种架构，我们将其表示为 CLIP E。我们使用 WEBEmo（最大的公开可用且手动标记的视觉情感分析基准）训练 CLIP E 模型，并执行两组实验。首先，我们在 WEBEmo 上进行测试，并将 CLIP E 架构与最先进的 SOTA 模型以及 CLIP Zero Shot 进行比较。其次，我们执行跨数据集评估，并在其他视觉情感分析基准测试上测试使用 WEBEmo 训练的 CLIP E 架构。我们的结果表明，CLIP E 方法在 WEBEmo 细粒度分类方面优于 SOTA 模型，并且在训练期间未见过的数据集上进行测试时，它们的泛化能力也更好。有趣的是，我们观察到，对于 FI 数据集，CLIP Zero Shot 比 SOTA 模型和在 WEBEmo 上训练的 CLIP E 具有更好的准确性。这些结果引发了我们在本文中讨论的几个问题，例如我们应该如何设计新的基准和评估视觉情感分析，以及我们是否应该继续为视觉情感分析设计定制的深度学习模型，或者集中精力更好地使用编码的知识

Robust Class-Conditional Distribution Alignment for Partial Domain Adaptation
Authors Sandipan Choudhuri, Arunabha Sen
部分域适应设置的学习目标中来自私有源类别的不需要的样本可能会导致负迁移并降低分类性能。现有的方法，例如重新加权或聚合目标预测，很容易受到此问题的影响，特别是在初始训练阶段，并且不能充分解决类级别特征对齐问题。我们提出的方法旨在通过比一阶矩更深入的研究来克服这些限制，以获得独特且紧凑的分类分布。我们采用以域不变方式优化类内和类间分布的目标，并设计强大的伪标签以实现有效的目标监督。我们的方法采用了补集熵目标模块来减少分类不确定性并消除不正确的类别预测。

SegmATRon: Embodied Adaptive Semantic Segmentation for Indoor Environment
Authors Tatiana Zemskova, Margarita Kichik, Dmitry Yudin, Aleksei Staroverov, Aleksandr Panov
本文提出了一种名为 SegmATron 的自适应变压器模型，用于具体图像语义分割。其显着特征是使用混合多分量损失函数对多个图像进行推理时调整模型权重。我们在真实感栖息地和合成 AI2 THOR 模拟器中收集的数据集上研究了该模型。我们表明，在室内环境中使用代理的动作获取附加图像可以提高语义分割的质量。

Exploring Decision-based Black-box Attacks on Face Forgery Detection
Authors Zhaoyu Chen, Bo Li, Kaixun Jiang, Shuang Wu, Shouhong Ding, Wenqiang Zhang
人脸伪造生成技术产生生动的面孔，引起了公众对安全和隐私的担忧。许多智能系统，例如电子支付和身份验证，都依赖于人脸伪造检测。尽管人脸伪造检测已成功区分假脸，但最近的研究表明人脸伪造检测器非常容易受到对抗性示例的影响。同时，现有的攻击依赖于网络架构或训练数据集，而不是预测标签，这导致在攻击已部署的应用程序方面存在差距。为了缩小这一差距，我们首先探索基于人脸伪造检测的决策攻击。然而，应用现有的基于决策的攻击直接遭受扰动初始化失败和图像质量低的问题。首先，我们提出跨任务扰动，通过利用不同任务上人脸特征的高度相关性来处理初始化失败。然后，受人脸伪造检测使用频率线索的启发，我们提出了基于频率决策的攻击。我们在频域中添加扰动，然后在空间域中约束视觉质量。最后，大量的实验表明，我们的方法在 FaceForensics、CelebDF 和工业 API 上实现了最先进的攻击性能，具有高查询效率和保证的图像质量。

Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of Experts And Frequency-augmented Decoder Approach
Authors Feng Luo, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang
最近使用的扩散先验，通过预训练的文本图像模型增强，显着提高了图像超分辨率 SR 的性能。为了减轻基于像素的扩散 SR 所需的巨大计算成本，基于潜在的方法利用特征编码器来变换图像，然后在紧凑的潜在空间中实现 SR 图像生成。然而，有两个主要问题限制了基于潜在的扩散的性能。首先，潜在空间的压缩通常会导致重建失真。其次，巨大的计算成本限制了扩散模型的参数规模。为了解决这些问题，我们首先提出了一种频率补偿模块，该模块可以增强从潜在空间到像素空间的频率分量。尤其是对于高频信息的重建失真可以显着降低。然后，我们建议使用专家 SS MoE 的样本空间混合来实现更强大的基于潜在的 SR，从而在不显着增加推理成本的情况下稳步提高模型的容量。这些精心设计的设计有助于提高广泛探索的 4 倍盲超分辨率基准测试的性能，并扩展到大放大倍数，即 8 倍图像 SR 基准测试。

IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks
Authors Yue Cao, Tianlin Li, Xiaofeng Cao, Ivor Tsang, Yang Liu, Qing Guo
我们引入了一种新颖的方法来对抗对抗性攻击，即图像重采样。图像重采样将离散图像转换为新图像，模拟几何变换指定的场景重新捕获或重新渲染的过程。我们的想法背后的基本原理是，图像重采样可以减轻对抗性扰动的影响，同时保留基本的语义信息，从而在防御对抗性攻击方面具有固有的优势。为了验证这个概念，我们提出了一项关于利用图像重采样来防御对抗性攻击的全面研究。我们开发了采用插值策略和坐标移动幅度的基本重采样方法。我们的分析表明，这些基本方法可以部分减轻对抗性攻击。然而，它们具有明显的局限性，干净图像的准确性明显下降，而对抗性示例的准确性提高并不显着。我们提出隐式表示驱动的图像重采样 IRAD 来克服这些限制。首先，我们构建一个隐式连续表示，使我们能够表示连续坐标空间内的任何输入图像。其次，我们介绍 SampleNet，它自动生成像素级移位，以便响应不同的输入进行重采样。此外，我们可以将我们的方法扩展到最先进的基于扩散的方法，以更少的时间步长加速它，同时保留其防御能力。

A Comparative Study of Image Restoration Networks for General Backbone Network Design
Authors Xiangyu Chen, Zheyuan Li, Yuandong Pu, Yihao Liu, Jiantao Zhou, Yu Qiao, Chao Dong
尽管深度模型在各种图像恢复任务中取得了显着进展，但现有的图像恢复网络在任务通用性方面仍然面临挑战。一个直观的表现是，在某些任务中表现出色的网络往往无法在其他任务中提供令人满意的结果。为了说明这一点，我们选择了五个具有代表性的图像恢复网络，并对五个经典的图像恢复任务进行了比较研究。首先，我们详细解释了不同图像恢复任务和主干网络的特征。接下来，我们展示基准测试结果并分析不同模型在不同任务中性能差异背后的原因。根据这项比较研究，我们提出通用图像恢复主干网络需要满足不同任务的功能要求。基于这一原理，我们设计了一种新的通用图像修复骨干网络X Restormer。

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now
Authors Yimeng Zhang, Jinghan Jia, Xin Chen, Aochuan Chen, Yihua Zhang, Jiancheng Liu, Ke Ding, Sijia Liu
扩散模型 DM 的最新进展彻底改变了复杂多样图像的生成。但这些模式也带来了安全隐患，例如有害内容的产生、侵犯数据版权等。尽管人们一直在努力创建安全驱动的遗忘方法来应对这些挑战，但对其能力仍然存在怀疑。为了弥合这种不确定性，我们提出了一个基于对抗性攻击（也称为对抗性提示）的评估框架，以便辨别这些安全驱动的未学习的 DM 的可信度。具体来说，我们的研究探讨了未学习的 DM 在消除不需要的概念、风格和对象方面的最坏情况鲁棒性，并通过生成对抗性提示进行评估。我们开发了一种名为 UnlearnDiff 的新型对抗性学习方法，它利用 DM 固有的分类功能来简化对抗性提示的生成，使其对于 DM 来说就像图像分类攻击一样简单。该技术简化了对抗性提示的创建，使生成建模的过程与图像分类攻击的过程一样直观。通过全面的基准测试，我们评估了五种常见的未学习 DM 在多个任务中的遗忘鲁棒性。与最先进的对抗性提示方法相比，我们的结果强调了 UnlearnDiff 的有效性和效率。

Evaluating the Fairness of Discriminative Foundation Models in Computer Vision
Authors Junaid Ali, Matthaeus Kleindessner, Florian Wenzel, Kailash Budhathoki, Volkan Cevher, Chris Russell
我们提出了一种新的分类法，用于歧视性基础模型的偏差评估，例如用于标记任务的对比语言预训练 CLIP。然后，我们系统地评估现有的方法，以减轻这些模型中关于我们的分类法的偏差。具体来说，我们评估了 OpenAI 的 CLIP 和 OpenCLIP 模型的关键应用，例如零样本分类、图像检索和图像字幕。我们围绕三个轴对期望的行为进行分类：i 任务是否涉及人类；ii 任务的主观程度，即来自不同背景的人们就标签达成一致的可能性有多大；iii 任务的预期目的以及是否公平。公正性可以更好地服务，即做出独立于受保护属性或代表性的决策，即做出最大化多样性的决策。最后，我们为十个不同数据集的二值和多值受保护属性提供定量公平性评估。我们发现，公平 PCA（一种公平表示的后处理方法）对于上述大多数任务中的去偏效果非常好，同时只会造成轻微的性能损失。然而，不同的去偏方法的有效性因任务而异。

VQ-NeRF: Neural Reflectance Decomposition and Editing with Vector Quantization
Authors Hongliang Zhong, Jingbo Zhang, Jing Liao
我们提出了 VQ NeRF，这是一种两分支神经网络模型，它结合了矢量量化 VQ 来分解和编辑 3D 场景中的反射场。尽管现实中的物体通常由离散材料组成，但传统的神经反射场仅使用连续表示来建模 3D 场景。缺乏离散化可能会导致嘈杂的材质分解和复杂的材质编辑。为了解决这些限制，我们的模型由连续分支和离散分支组成。连续分支遵循传统的流程来预测分解的材料，而离散分支则使用VQ机制将连续材料量化为单独的材料。通过对材料进行离散化，我们的模型可以减少分解过程中的噪声并生成离散材料的分割图。通过单击分割结果的相应区域，可以轻松选择特定材料进行进一步编辑。此外，我们提出了一种基于 dropout 的 VQ 码字排序策略来预测场景中的材质数量，从而减少了材质分割过程中的冗余。为了提高可用性，我们还开发了交互式界面来进一步辅助素材编辑。我们在计算机生成的场景和现实世界场景中评估我们的模型，展示其卓越的性能。

Learning to Generate Parameters of ConvNets for Unseen Image Data
Authors Shiye Wang, Kaituo Feng, Changsheng Li, Ye Yuan, Guoren Wang
典型的卷积神经网络 ConvNet 严重依赖于大量图像数据，并采用迭代优化算法（例如 SGD 或 Adam）来学习网络参数，这使得训练非常耗时和资源密集。在本文中，我们提出了一种新的训练范式，并将 ConvNet 的参数学习公式化为给定 ConvNet 架构的预测任务，我们观察到图像数据集与其相应的最佳网络参数之间存在相关性，并探索是否可以学习超映射它们之间的关系来捕获关系，这样我们就可以直接预测训练阶段从未见过的图像数据集的网络参数。为此，我们提出了一种新的基于超网络的模型，称为 PudNet，该模型旨在学习数据集与其相应网络参数之间的映射，然后仅通过一次前向传播来预测未见过的数据的参数。此外，我们的模型受益于一系列共享权重的自适应超循环单元，以捕获不同网络层之间参数的依赖性。大量的实验表明，我们提出的方法在数据集内预测和数据集间预测两种设置上对未见过的图像数据集取得了良好的效果。我们的 PudNet 还可以很好地扩展到大规模数据集，例如 ImageNet 1K。从头开始使用 GC 在 ImageNet 1K 上训练 ResNet 18 需要 8967 GPU 秒，并获得 44.65 的 top 5 准确率。

HB-net: Holistic bursting cell cluster integrated network for occluded multi-objects recognition
Authors Xudong Gao, Xiao Guang Gao, Jia Rong, Xiaowei Chen, Xiang Liao, Jun Chen
在图像识别领域，当视野内的物体可能相互遮挡时，就会出现一类特定类别的多标签分类 MLC 挑战，需要同时识别被遮挡和遮挡的物体。传统的卷积神经网络 CNN 可以应对这些挑战，但是这些模型往往体积庞大，并且只能达到适度的准确度。本文利用尖端神经科学研究的见解，特别是整体突发 HB 单元，介绍了一种名为 HB net 的开创性集成网络框架。 HB 网络建立在 HB 细胞簇的基础上，旨在解决同时识别图像中多个遮挡物体的复杂任务。引入了各种突发细胞簇结构，并辅以证据积累机制。测试是在包含数字和字母的多个数据集上进行的。结果表明，与没有 HB 框架的模型相比，包含 HB 框架的模型的识别精度显着提高了 2.98 倍，p = 0.0499。尽管在高噪声设置下，标准 CNN 与 HB 网络模型相比表现出稍强的鲁棒性，但结合 HB 框架和 EA 机制的模型实现了与 ResNet50 相当的准确性和弹性水平，尽管只有 3 个卷积层和大约 1 30 个卷积层。的参数。这项研究的结果为改进计算机视觉算法提供了宝贵的见解。

ShapeGraFormer: GraFormer-Based Network for Hand-Object Reconstruction from a Single Depth Map
Authors Ahmed Tawfik Aboukhadra, Jameel Malik, Nadia Robertini, Ahmed Elhayek, Didier Stricker
手部物体操作的 3D 重建对于模拟人类行为非常重要。大多数处理具有挑战性的对象操作场景的方法都专注于孤立的手部重建，忽略了由于对象接触而导致的物理和运动学约束。一些方法通过联合重建 3D 手部对象交互来产生更真实的结果。然而，他们专注于粗略的姿势估计或依赖于已知的手和物体形状。我们提出了第一种从单个深度图重建真实 3D 手部物体形状和姿势的方法。与之前的工作不同，我们基于体素的重建网络对手和物体的顶点坐标进行回归，并重建更真实的交互。我们的管道还预测体素化的手部对象形状，与输入体素化深度具有一对一的映射。此后，我们利用最新的具有位置嵌入的 GraFormer 网络从模板网格重建形状，从而利用手和物体形状的图形性质。此外，我们还展示了添加另一个 GraFormer 组件的影响，该组件根据手部对象交互细化重建的形状及其重建更准确的对象形状的能力。

Panoptic Out-of-Distribution Segmentation
Authors Rohit Mohan, Kiran Kumaraswamy, Juana Valeria Hurtado, K rsat Petek, Abhinav Valada
深度学习在场景理解方面取得了显着的进步，全景分割成为一项关键的整体场景解释任务。然而，在存在分布外 OOD 对象（即偏离训练分布的对象类别）的情况下，全景分割的性能会受到严重影响。为了克服这一限制，我们提出了全景分布外分割，用于分布中和分布外分类与实例预测的联合像素级语义。我们扩展了两个已建立的全景分割基准（Cityscapes 和 BDD100K），并使用分布实例分割注释，提出了合适的评估指标，并提出了多个强大的基线。重要的是，我们提出了新颖的 PoDS 架构，具有共享主干、用于学习全局和局部 OOD 对象线索的 OOD 上下文模块，以及具有任务特定头的双对称解码器，这些解码器采用我们的对齐不匹配策略来实现更好的 OOD 泛化。与我们的数据增强策略相结合，这种方法有助于逐步学习分布外对象，同时保持分布性能。我们进行了广泛的评估，证明我们提出的 PoDS 网络有效地解决了主要挑战，并且大大优于基线。

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts
Authors Xinhua Cheng, Tianyu Yang, Jianan Wang, Yu Li, Lei Zhang, Jian Zhang, Li Yuan
由于图像扩散模型和优化策略的进步，最近的文本到 3D 生成方法实现了令人印象深刻的 3D 内容创建能力。然而，当前的方法很难为语义上的复杂提示生成正确的 3D 内容，即描述与不同属性绑定的多个交互对象的提示。在这项工作中，我们提出了一个名为 Progressive3D 的通用框架，它将整个生成分解为一系列局部渐进式编辑步骤，为复杂的提示创建精确的 3D 内容，并且我们将内容更改限制为仅发生在由用户定义的区域确定的区域中每个编辑步骤都会有提示。此外，我们提出了一种重叠语义成分抑制技术，以鼓励优化过程更多地关注提示之间的语义差异。

Multi Task Consistency Guided Source-Free Test-Time Domain Adaptation Medical Image Segmentation
Authors Yanyu Ye, Zhenxi Zhang, Wei Wei, Chunna Tian
医学图像分割的无源测试时间自适应旨在增强分割模型对目标域的各种和以前未见过的测试集的适应性，这有助于在不访问源域的情况下实现医学图像分割模型的通用性和鲁棒性。确保目标边缘和配对输入之间的一致性对于测试时间适应至关重要。为了提高测试时域自适应的性能，我们提出了一种多任务一致性引导的无源测试时域自适应医学图像分割方法，该方法确保了局部边界预测和全局原型表示的一致性。具体来说，我们引入了一种局部边界一致性约束方法，该方法探索组织区域分割和组织边界定位任务之间的关系。此外，我们提出了全局特征一致性约束来增强类内紧凑性。我们对基准眼底图像的分割进行了广泛的实验。与直接通过源域模型进行预测相比，RIM ONE r3 和 Drishti GS 数据集中的分割 Dice 分数分别提高了 6.27 和 0.96。

Domain-Generalized Face Anti-Spoofing with Unknown Attacks
Authors Zong Wei Hong, Yu Chen Lin, Hsuan Tung Liu, Yi Ren Yeh, Chu Song Chen
尽管人脸反欺骗FAS方法在特定域或攻击类型上取得了显着的性能，但很少有研究关注域变化和未知攻击同时存在，这更接近真实的应用场景。为了处理领域广义未知攻击，我们引入了一种新方法 DGUA FAS，它由基于 Transformer 的特征提取器和合成未知攻击样本生成器 SUASG 组成。 SUASG网络模拟未知的攻击样本来辅助特征提取器的训练。

RGM: A Robust Generalist Matching Model
Authors Songyan Zhang, Xinyu Sun, Hao Chen, Bo Li, Chunhua Shen
在一对图像中查找对应的像素是一项具有各种应用的基本计算机视觉任务。由于光流估计和局部特征匹配等不同任务的特定要求，以前的工作主要分为密集匹配和稀疏特征匹配，重点关注专用架构和特定任务数据集，这可能会在一定程度上阻碍专用模型的泛化性能。在本文中，我们提出了一种稀疏和密集匹配的深度模型，称为 RGM 鲁棒通才匹配。特别是，我们精心设计了一个级联 GRU 模块，通过在多个尺度上迭代探索几何相似性来进行细化，并遵循用于稀疏化的附加不确定性估计模块。为了缩小合成训练样本与现实世界场景之间的差距，我们通过生成具有更大间隔的光流监督来构建具有稀疏对应地面实况的新的大规模数据集。因此，我们能够混合各种密集和稀疏的匹配数据集，显着提高训练多样性。通过在大型混合数据上以两阶段方式学习匹配和不确定性估计，我们提出的 RGM 的泛化能力得到了极大的提高。

BanglaAbuseMeme: A Dataset for Bengali Abusive Meme Classification
Authors Mithun Das, Animesh Mukherjee
使用社交媒体平台进行信息共享的急剧增加也推动了在线滥用行为的急剧增长。滥用个人或社区的一种简单而有效的方法是创建模因，它通常将图像与其上的一小段文本结合起来。此类有害元素猖獗，对网络安全构成威胁。因此，有必要开发有效的模型来检测和标记滥用模因。在资源匮乏的环境中，这个问题变得更具挑战性，例如孟加拉语模因，即嵌入孟加拉语文本的图像，因为缺乏可以训练人工智能模型的基准数据集。在本文中，我们通过构建孟加拉语模因数据集来弥补这一差距。为了建立有效的基准，我们实施了几个基线模型，用于使用该数据集对滥用模因进行分类。我们观察到同时使用文本和视觉信息的多模态模型优于单模态模型。我们性能最佳的模型的宏观 F1 得分为 70.51。

DBDNet:Partial-to-Partial Point Cloud Registration with Dual Branches Decoupling
Authors Shiqi Li, Jihua Zhu, Yifan Xie
点云配准在各种计算机视觉任务中起着至关重要的作用，并且在实践中通常需要解决部分重叠配准的问题。大多数现有方法执行旋转和平移的串行计算，同时在配准过程中联合预测重叠，这种耦合往往会降低配准性能。在本文中，我们提出了一种有效的双分支解耦配准方法，用于部分到部分配准，称为 DBDNet。具体来说，我们引入了双分支结构，通过分别创建两个单独的对应矩阵来消除旋转和平移之间的相互干扰误差。对于部分到部分配准，我们将重叠预测视为配准过程之前的预排序任务。因此，我们提出了一种受益于显式特征交互的重叠预测器，这是通过强大的注意力机制来准确预测逐点掩模来实现的。此外，我们设计了一个多分辨率特征提取网络来捕获局部和全局模式，从而增强重叠预测和配准模块。

VST++: Efficient and Stronger Visual Saliency Transformer
Authors Nian Liu, Ziyang Luo, Ni Zhang, Junwei Han
虽然之前基于 CNN 的模型在显着目标检测 SOD 方面表现出了有希望的结果，但它们探索全局长范围依赖性的能力受到限制。我们之前的工作 Visual Saliency Transformer VST 从基于序列的转换器到序列的角度解决了这一限制，以统一 RGB 和 RGB D SOD。在 VST 中，我们开发了一个多任务 Transformer 解码器，它可以同时预测纯 Transformer 架构中的显着性和边界结果。此外，我们引入了一种称为反向 T2T 的新型令牌上采样方法，用于在基于变压器的结构中轻松预测高分辨率显着性图。在 VST 模型的基础上，我们在这项工作中进一步提出了一个高效且更强的 VST 版本，即 VST 。为了减轻 VST 模型的计算成本，我们提出了一个 Select Integrate Attention SIA 模块，将前景划分为细粒度的片段，并将背景信息聚合到单个粗粒度的标记中。为了以低成本整合 3D 深度信息，我们设计了一种专为深度图量身定制的新型深度位置编码方法。此外，我们引入了令牌监督预测损失，为任务相关令牌提供直接指导。我们在 RGB、RGB D 和 RGB T SOD 基准数据集上跨各种基于 Transformer 的主干网评估我们的 VST 模型。实验结果表明，我们的模型优于现有方法，同时在不显着影响性能的情况下，计算成本降低了 25%。

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation
Authors Yiyang Su, Ali Vosoughi, Shijian Deng, Yapeng Tian, Chenliang Xu
视听声音分离场假定视频中的可见源，但这排除了摄像机视野之外的不可见声音。目前的方法很难处理这种缺乏可见线索的声音。本文介绍了一种新颖的视听场景感知分离 AVSA Sep 框架。它包括用于可见和不可见声音的语义解析器以及用于场景通知分离的分离器。

DPF-Nutrition: Food Nutrition Estimation via Depth Prediction and Fusion
Authors Yuzhe Han, Qimin Cheng, Wenjin Wu, Ziyang Huang
合理均衡的饮食对于保持身体健康至关重要。随着深度学习的进步，基于食物图像的自动营养估计方法为监测日常营养摄入和促进饮食健康提供了一种有前途的解决方案。虽然基于单目图像的营养估计方便、高效且经济，但有限精度的挑战仍然是一个重大问题。为了解决这个问题，我们提出了 DPF Nutrition，一种使用单目图像的端到端营养估计方法。在DPF Nutrition中，我们引入了深度预测模块来生成深度图，从而提高了食物份量估计的准确性。此外，我们设计了一个 RGB D 融合模块，将单目图像与预测的深度信息相结合，从而获得更好的营养估计性能。据我们所知，这是将深度预测和 RGB D 融合技术集成到食品营养评估中的开创性工作。

Runner re-identification from single-view video in the open-world setting
Authors Tomohiro Suzuki, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii
在许多运动中，运动员重新识别对于自动视频处理和分析至关重要。然而，目前大多数关于多视图或单视图体育视频中球员重新识别的研究都集中在使用标记图像数据集的封闭世界环境中的重新识别，而用于自动视频分析的开放世界环境中的球员重新识别还没有得到很好的发展。在本文中，我们提出了一种跑步者重新识别系统，该系统直接处理单视图视频以解决开放世界设置。在开放世界设置中，我们无法使用标记数据集，必须直接处理视频。所提出的系统自动处理原始视频作为识别跑步者的输入，并且即使跑步者被多次帧出，它也可以识别跑步者。对于自动处理，我们首先使用预训练的 YOLOv8 和微调的 EfficientNet 检测视频中的跑步者。然后，我们使用 ByteTrack 跟踪跑步者，并使用微调的 YOLOv8 检测他们的鞋子。最后，我们使用门控循环单元自动编码器模型，使用无监督方法提取跑步者的图像特征。为了提高跑步者重新识别的准确性，我们使用跑步序列图像的动态特征。我们在跑步练习视频数据集上评估了该系统，并表明所提出的方法识别跑步者的准确度比无监督重新识别中最先进的模型之一更高。我们还表明，我们的无监督跑步动态特征提取器对于跑步者重新识别是有效的。

MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision
Authors Chenyangguang Zhang, Guanlong Jiao, Yan Di, Ziqin Huang, Gu Wang, Ruida Zhang, Bowen Fu, Federico Tombari, Xiangyang Ji
以前有关单视图手持物体重建的工作通常利用 3D 地面实况模型的监督，而这些模型在现实世界中很难收集。相比之下，描述手部物体交互的大量视频可以以低成本轻松访问，尽管它们仅提供具有复杂遮挡的部分物体观察。在本文中，我们提出了 MOHO，通过来自手部物体视频的多视图监督从单个图像重建手持物体，解决了两个主要挑战，包括物体的自遮挡和手部引起的遮挡。 MOHO输入表示可见对象部分的语义特征和手部关节提供的几何嵌入作为部分到完整的线索来抵抗对象的自遮挡，从而恢复对象的完整形状。同时，提出了一种遵循合成到真实范式的新型 2D 3D 手部遮挡感知训练方案，以释放手部引起的遮挡。在合成预训练阶段，通过使用渲染图像监督 MOHO 来构建 2D 3D 手部对象相关性，以完成 2D 和 3D 空间中对象的手部隐藏区域。随后，通过采用预训练期间获得的手部对象相关性的掩模加权体积渲染监督，在现实世界中对 MOHO 进行微调。 HO3D 和 DexYCB 数据集上的大量实验表明，2D 监督 MOHO 比 3D 监督方法获得了大幅优于 3D 监督的结果。

ChatGPT-guided Semantics for Zero-shot Learning
Authors Fahimul Hoque Shubho, Townim Faisal Chowdhury, Ali Cheraghian, Morteza Saberi, Nabeel Mohammed, Shafin Rahman
零样本学习 ZSL 旨在对训练期间未观察到或看到的对象进行分类。它依靠类语义描述将知识从可见的类转移到不可见的类。获取类语义的现有方法包括手动属性或来自诸如 word2vec 之类的语言模型的自动词向量。我们知道属性注释的成本很高，而自动词向量的噪声相对较大。为了解决这个问题，我们探索大型语言模型 ChatGPT 如何增强 ZSL 任务的类语义。 ChatGPT 可以成为获取包含相关属性和语义的每个类的文本描述的有用来源。我们使用 word2vec 模型通过 ChatGPT 中的文本获取词向量。然后，我们通过组合来自 ChatGPT 生成的类名称和描述的词嵌入来丰富词向量。更具体地说，我们利用 ChatGPT 为类描述提供额外的监督，最终使 ZSL 模型受益。我们在各种 2D 图像 CUB 和 AwA 以及 3D 点云 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上评估我们的方法，并表明它提高了 ZSL 性能。

Towards Abdominal 3-D Scene Rendering from Laparoscopy Surgical Videos using NeRFs
Authors Khoa Tuan Nguyen, Francesca Tozzi, Nikdokht Rashidian, Wouter Willaert, Joris Vankerschaver, Wesley De Neve
鉴于传统腹腔镜仅提供二维 2D 视图，医疗疾病的检测和诊断可能具有挑战性。为了克服腹腔镜检查相关的视觉限制，使用腹腔镜图像和视频重建腹部的三维 3D 解剖结构已被证明是一种有前途的方法。神经辐射场 NeRF 最近受到关注，因为它们能够从 3D 静态场景生成逼真的图像，从而通过合成新视图促进对腹部进行更全面的探索。这将 NeRF 与同步定位、建图 SLAM 和深度估计等替代方法区分开来。在本文中，我们在腹腔镜手术视频的背景下对 NeRF 进行了全面检查，目标是渲染 3D 腹部场景。虽然我们的实验结果很有希望，但所提出的方法遇到了巨大的挑战，需要在未来进一步探索

Holistic Parking Slot Detection with Polygon-Shaped Representations
Authors Lihao Wang, Antonyo Musabini, Christel Leonet, Rachid Benmokhtar, Amaury Breheret, Chaima Yedes, Fabian Burger, Thomas Boulay, Xavier Perrotton
目前先进驾驶辅助系统 ADAS 中的停车位检测主要依赖于超声波传感器。该方法有一些局限性，例如需要在检测之前扫描整个停车位、无法连续检测多个停车位以及难以对它们进行分类。由于视觉环境复杂，车辆配备了环视摄像系统来检测空闲停车位。该领域以往的研究工作大多使用图像域模型来解决该问题。这两个阶段的方法使用相机校准将 2D 检测和 3D 姿态估计步骤分开。在本文中，我们提出了一步整体停车位网络 HPS Net，这是一种根据 You Only Look Once YOLO v4 算法量身定制的版本。这种基于相机的方法直接输出俯视域中停车位的四个顶点坐标，而不是原始相机图像中的边界框。可以从不同的角度提出几个可见的点和形状。还提出了一种用于多边形顶点位置优化的新型回归损失函数，称为多边形角广义交集在联合 GIoU 上，以管理槽方向并区分入口线。实验表明，HPS Net 可以检测各种空置停车位，在我们的内部法雷奥停车位数据集 VPSD 上的 F1 分数为 0.92，在公共数据集 PS2.0 上的 F1 分数为 0.99。它在各种停车场景中提供了令人满意的通用性和鲁棒性，例如室内 F1 0.86 或铺砌地面 F1 0.91 。此外，它在Nvidia Drive AGX Xavier上实现了17 FPS的实时检测速度。

High-Resolution Building and Road Detection from Sentinel-2
Authors Wojciech Sirko, Emmanuel Asiedu Brempong, Juliana T. C. Marcos, Abigail Annkah, Abel Korme, Mohammed Alewi Hassen, Krishna Sapkota, Tomer Shekel, Abdoulaye Diack, Sella Nevo, Jason Hickey, John Quinn
利用遥感自动绘制建筑物和道路地图通常需要高分辨率图像，但获取这些图像的成本昂贵且通常很少。在这项工作中，我们演示了如何使用多个 10 m 分辨率的 Sentinel 2 图像来生成 50 cm 分辨率的建筑物和道路分割掩模。这是通过训练一个能够访问 Sentinel 2 图像的学生模型来重现能够访问相应高分辨率图像的教师模型的预测来完成的。虽然预测没有教师模型的所有细节，但我们发现我们能够保留构建分割的大部分性能，达到 78.3 mIoU，而高分辨率教师模型的准确度为 85.3 mIoU。我们还描述了一种用于对 Sentinel 2 补丁中的单个建筑物进行计数的相关方法，该方法相对于真实计数达到了 R 2 0.91。

DIAR: Deep Image Alignment and Reconstruction using Swin Transformers
Authors Monika Kwiatkowski, Simon Matern, Olaf Hellwich
在拍摄某些被遮挡内容的图像时，人们经常面临这样的问题：每个单独的图像帧都包含不需要的伪影，但如果正确对齐和聚合，图像集合包含所有相关信息。在本文中，我们尝试构建一个深度学习管道，同时对齐一系列扭曲图像并重建它们。我们创建一个数据集，其中包含具有图像失真的图像，例如光照、镜面反射、阴影和遮挡。我们用相应的真实单应性作为标签来创建透视扭曲。我们使用数据集来训练 Swin 变压器模型来分析序列图像数据。注意力图使模型能够检测相关图像内容并将其与异常值和伪影区分开来。我们进一步探索使用神经特征图作为经典关键点检测器的替代品。经过训练的卷积层的特征图提供了密集的图像描述符，可用于查找图像之间的点对应关系。

Learning Neural Implicit through Volume Rendering with Attentive Depth Fusion Priors
Authors Pengchong Hu, Zhizhong Han
学习神经隐式表示在多视图图像的 3D 重建中取得了显着的性能。当前的方法使用体积渲染将隐式表示渲染为由多视图地面实况监督的 RGB 或深度图像。然而，每次渲染视图都会遇到孔深度不完整以及深度监控无法意识到被遮挡结构的问题，这严重影响了通过体渲染进行几何推断的准确性。为了解决这个问题，我们建议通过体渲染和先验深度融合从多视图 RGBD 图像中学习神经隐式表示。我们的先验允许神经网络从所有可用于渲染的深度图像融合的截断符号距离函数 TSDF 中感知粗糙的 3D 结构。 TSDF 能够访问一幅深度图像上孔处缺失的深度以及从当前视图中不可见的被遮挡部分。通过引入一种新颖的注意力机制，我们允许神经网络直接使用深度融合先验和推断的占用率作为学习的隐函数。我们的注意力机制可以与代表整个场景的一次性融合 TSDF 或代表同步定位和建图 SLAM 背景下的部分场景的增量融合 TSDF 配合使用。我们对广泛使用的基准（包括合成和现实世界扫描）的评估表明我们优于最新的神经隐式方法。

WaveAttack: Asymmetric Frequency Obfuscation-based Backdoor Attacks Against Deep Neural Networks
Authors Jun Xia, Zhihao Yue, Yingbo Zhou, Zhiwei Ling, Xian Wei, Mingsong Chen
由于人工智能AI技术的普及，对手设计了大量后门攻击，通过操纵训练样本和训练过程来误导深度神经网络预测。尽管后门攻击在各种实际场景中都是有效的，但它们仍然存在中毒样本保真度低和潜在空间中不可忽略的传输问题，这使得它们很容易被现有的后门检测算法检测到。为了克服这一弱点，本文提出了一种新的基于频率的后门攻击方法——WaveAttack，该方法通过离散小波变换DWT获取图像高频特征来生成后门触发器。此外，我们引入了一种非对称频率混淆方法，可以在训练和推理阶段添加自适应残差，以改善触发器的影响，进一步增强WaveAttack的有效性。

GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment
Authors Dhruba Ghosh, Hanna Hajishirzi, Ludwig Schmidt
最近在扩散模型、多模态预训练和高效微调方面的突破导致了文本到图像生成模型的爆炸式增长。鉴于人工评估成本高昂且难以扩展，自动化方法对于评估日益增多的新模型至关重要。然而，当前大多数自动评估指标（例如 FID 或 CLIPScore）仅提供图像质量或图像文本对齐的整体衡量，并且不适合细粒度或实例级分析。在本文中，我们介绍了 GenEval，这是一个以对象为中心的框架，用于评估组合图像属性，例如对象共现、位置、计数和颜色。我们表明，可以利用当前的对象检测模型来评估各种具有强烈人类一致性的生成任务上的文本到图像模型，并且其他判别性视觉模型可以链接到该管道以进一步验证对象颜色等属性。然后，我们评估几个开源文本到图像模型，并在我们的基准上分析它们的相对生成能力。我们发现，最近的模型在这些任务上表现出了显着的改进，尽管它们仍然缺乏空间关系和属性绑定等复杂的功能。最后，我们演示了如何使用 GenEval 来帮助发现现有的故障模式，以便为下一代文本到图像模型的开发提供信息。

Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation
Authors Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione, St phane Lathuili re
班级增量学习 CIL 是一项具有挑战性的任务，需要不断学习将班级分类为新任务，而不会忘记以前学到的信息。由于具有高度可转移的 PTM 表示，大型预训练模型 PTM 的出现快速跟踪了 CIL 的进展，与从头开始训练的传统 CIL 方法相比，调整一小组参数即可实现最先进的性能。然而，对每个任务进行重复微调会破坏 PTM 的丰富表示，并进一步导致忘记以前的任务。为了在 CIL 的 PTM 的稳定性和可塑性之间取得平衡，我们提出了一种新的视角，即消除对每个新任务的训练，而是直接在测试实例上执行测试时间适应 TTA。具体来说，我们提出了类增量学习 TTACIL 的测试时间适应，首先在每个测试实例上微调 PTM 的层范数参数以学习任务特定功能，然后将它们重置回基本模型以保持稳定性。因此，TTACIL 不会发生任何遗忘，同时通过丰富的 PTM 功能使每个任务受益。此外，根据设计，我们的方法对于常见的数据损坏具有鲁棒性。

Tracking and Mapping in Medical Computer Vision: A Review
Authors Adam Schmidt, Omid Mohareri, Simon DiMaio, Michael Yip, Septimiu E. Salcudean
随着计算机视觉算法变得越来越强大，它们在临床系统中的应用将变得更加普遍。这些应用包括结肠镜检查和支气管镜检查等诊断、引导活检和微创干预和手术、自动化仪器运动以及使用术前扫描提供图像引导。

Probabilistic Sampling of Balanced K-Means using Adiabatic Quantum Computing
Authors Jan Nico Zaech, Martin Danelljan, Luc Van Gool
绝热量子计算 AQC 是一种很有前途的量子计算方法，适用于离散且通常为 NP 的硬优化问题。当前的 AQC 可以实现研究兴趣的问题，这激发了许多机器学习和计算机视觉任务的量子表示的发展。尽管需要从嘈杂的 AQC 进行多次测量，但当前的方法仅利用最佳测量，而丢弃其余测量中包含的信息。在这项工作中，我们探索了使用这些信息进行概率平衡 k 均值聚类的潜力。我们建议使用它们来计算校准后验概率，而不是丢弃非最优解，而几乎不需要额外的计算成本。

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions
Authors Hanbo Zhang, Jie Xu, Yuchen Mo, Tao Kong
歧义在人类交流中普遍存在。以前的人机交互 HRI 方法通常依赖于预定义的交互模板，导致现实和开放式场景中的性能下降。为了解决这些问题，我们提出了一个大规模数据集 invig，用于语言歧义下的交互式视觉基础。我们的数据集包含超过 52 万张图像，并附有开放式目标导向的消歧对话，包含数百万个对象实例和相应的问题答案对。利用 invig 数据集，我们进行了广泛的研究，并提出了一套用于端到端交互式视觉消歧和基础的基线解决方案，在验证过程中实现了 45.6 的成功率。据我们所知，invig 数据集是第一个用于解决开放式交互式视觉基础的大型数据集，为模糊感知 HRI 提供了实用但极具挑战性的基准。

Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Authors Yaqing Wang, Jialin Wu, Tanmaya Dabral, Jiageng Zhang, Geoff Brown, Chun Ta Lu, Frederick Liu, Yi Liang, Bo Pang, Michael Bendersky, Radu Soricut
大型语言模型 LLM 和视觉语言模型 VLM 通过将参数计数从 O 10 9 扩展到 O 10 12 级别甚至更高，在各种任务上展示了出色的性能。这些大规模使得在给定感兴趣的任务的情况下不可能适应和部署完全专业的模型。参数有效的微调 PEFT 成为解决此类大型模型的适应和服务挑战的一个有前途的方向。我们将 PEFT 技术分为侵入式和非侵入式两种。侵入式 PEFT 技术直接改变模型的内部架构。尽管更加灵活，但它们给训练和服务带来了极大的复杂性。非侵入式 PEFT 技术保持内部架构不变，仅调整模型外部参数，例如输入的嵌入。在这项工作中，我们将 AdaLink 描述为一种非侵入式 PEFT 技术，与 SoTA 侵入式 PEFT LoRA 和全模型微调 FT 相比，它在各种任务上实现了具有竞争力的性能。

Unveiling the Siren's Song: Towards Reliable Fact-Conflicting Hallucination Detection
Authors Xiang Chen, Duanzheng Song, Honghao Gui, Chengxi Wang, Ningyu Zhang, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen
大型语言模型 LLM，例如 ChatGPT GPT 4，由于其无数的实际应用而引起了广泛的关注，但它们的采用却受到网络平台上事实冲突幻觉问题的限制。法学硕士对文本事实性的评估仍然没有得到充分的探索，不仅扩展到普通事实的判断，还包括对多跳等复杂推理任务中出现的事实错误的评估。作为回应，我们引入了 FactCHD ，一个专为法学硕士精心设计的事实冲突幻觉检测基准。作为评估查询响应上下文中的事实性的关键工具，我们的基准同化了大规模数据集，封装了广泛的事实性模式，例如普通、多跳、比较和集合操作模式。我们的基准的一个显着特点是它纳入了基于事实的证据链，从而促进了整个评估过程中全面且有益的事实推理。我们评估了多个法学硕士，证明了基准的有效性，而当前的方法无法忠实地检测事实错误。此外，我们提出了 TRUTH TRIANGULATOR，它通过基于 Llama2 的工具增强型 ChatGPT 和 LoRA 调整来综合反思性考虑，旨在通过预测结果和证据的合并产生更可信的检测。

One-Shot Imitation Learning: A Pose Estimation Perspective
Authors Pietro Vitiello, Kamil Dreczkowski, Edward Johns
在本文中，我们在以下具有挑战性的环境下研究模仿学习：1 仅一次演示，2 没有进一步的数据收集，3 没有先验任务或对象知识。我们展示了如何在这些约束下将模仿学习表述为轨迹转移和不可见物体姿态估计的组合。为了探索这个想法，我们深入研究了最先进的看不见的物体姿势估计器如何在十个现实世界任务中进行一次模仿学习，并且我们深入研究了相机校准、姿势估计误差、和空间泛化对任务成功率有影响。

LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation
Authors Shengqiang Zhang, Philipp Wicke, L tfi Kerem enel, Luis Figueredo, Abdeldjallil Naceri, Sami Haddadin, Barbara Plank, Hinrich Sch tze
具身代理和大型语言模型法学硕士的融合为具身指令遵循带来了重大进步。特别是，法学硕士强大的推理能力使机器人能够执行长期任务，而无需昂贵的注释演示。然而，用于测试语言条件机器人在各种场景下的长视野推理能力的公共基准仍然缺失。为了填补这一空白，这项工作重点关注桌面操作任务，并发布了一个模拟基准，textit LoHoRavens，它涵盖了跨越颜色、大小、空间、算术和参考等各种长视域推理方面。此外，对于法学硕士的长视野操作任务，存在一个关键的模态桥接问题，即如何将机器人执行期间的观察反馈纳入法学硕士的闭环规划，但之前的工作对此研究较少。我们研究了两种桥接模态间隙字幕生成和可学习接口的方法，分别将显式和隐式观察反馈纳入法学硕士。这些方法作为我们提出的基准的两个基线。实验表明，这两种方法都难以解决某些任务，这表明长范围操作任务对于当前流行的模型来说仍然具有挑战性。

KI-PMF: Knowledge Integrated Plausible Motion Forecasting
Authors Abhishek Vivekanandan, Ahmed Abouelazm, Philip Sch rner, J. Marius Z llner
准确预测交通参与者的运动对于大规模部署自动驾驶汽车至关重要。当前的轨迹预测方法主要集中于使用特定指标优化损失函数，这可能导致预测不遵守物理定律或违反外部约束。我们的目标是结合显式的先验知识，使网络能够预测未来的轨迹，同时符合车辆的运动学约束和驾驶环境的几何形状。为了实现这一目标，我们引入了非参数剪枝层和注意力层来整合定义的知识先验。我们提出的方法旨在确保复杂和动态情况下交通参与者的可达性保证。

Bayesian Flow Networks in Continual Learning
Authors Mateusz Pyla, Kamil Deja, Bart omiej Twardowski, Tomasz Trzci ski
贝叶斯流网络 BFN 最近被认为是通用生成建模最有前途的方向之一，具有学习任何数据类型的能力。它们的力量来自神经网络和贝叶斯推理的表达能力，这使得它们适合持续学习的背景。

Multi-modal Medical Neurological Image Fusion using Wavelet Pooled Edge Preserving Autoencoder
Authors Manisha Das, Deep Gupta, Petia Radeva, Ashwini M Bakde
医学图像融合集成了源图像模态的补充诊断信息，以改进潜在异常的可视化和分析。最近，基于深度学习的模型通过同时执行特征提取、特征选择和特征融合任务，优于传统的融合方法。然而，大多数现有的卷积神经网络 CNN 架构使用传统的池化或跨步卷积策略来对特征图进行下采样。它会导致源图像中可用的重要诊断信息和边缘细节模糊或丢失，并削弱特征提取过程的效率。因此，本文提出了一种基于边缘保留密集自动编码器网络的多模态医学图像端到端无监督融合模型。在所提出的模型中，通过使用基于小波分解的特征图注意池来改进特征提取。这有助于保留源图像中存在的精细边缘细节信息，并增强融合图像的视觉感知。此外，所提出的模型在各种医学图像对上进行训练，这有助于捕获源图像的强度分布并有效地保留诊断信息。

A New Multimodal Medical Image Fusion based on Laplacian Autoencoder with Channel Attention
Authors Payal Wankhede, Manisha Das, Deep Gupta, Petia Radeva, Ashwini M Bakde
医学图像融合结合了多模态医学图像的互补信息，以协助医疗专业人员对患者疾病进行临床诊断，并在术前和术中过程中提供指导。深度学习DL模型已经实现了端到端的图像融合，具有高度稳健和准确的融合性能。然而，大多数基于深度学习的融合模型都会对输入图像执行下采样，以最大限度地减少可学习参数和计算的数量。在此过程中，源图像的显着特征变得不可恢复，导致关键的诊断边缘细节和各种脑组织的对比度丢失。在本文中，我们提出了一种新的多模态医学图像融合模型，该模型基于集成拉普拉斯高斯级联和注意池 LGCA 。

Analyze Mass Spectrometry data with Artificial Intelligence to assist the understanding of past habitability of Mars and provide insights for future missions
Authors Ioannis Nasios
本文介绍了人工智能在质谱数据上的应用，以检测古代火星的宜居潜力。尽管数据是针对火星收集的，但同样的方法可以应用于太阳系的任何陆地物体。此外，所提出的方法可以适用于使用质谱的任何领域。本研究的重点是两种质谱技术的数据分析，即逸出气体分析 EGA MS 和气相色谱 GC MS，用于识别地质材料样品中的特定化合物。该研究证明了 EGA MS 和 GC MS 数据在地外物质分析中的适用性。所提出的方法的最重要特征包括质谱值的平方根转换、原始数据到二维谱图的转换以及利用特定的机器学习模型和技术来避免对相对较小的数据集的过度拟合。 EGA MS 和 GC MS 数据集均来自 NASA 以及作者参与和利用的两个机器学习竞赛。

From Neural Activations to Concepts: A Survey on Explaining Concepts in Neural Networks
Authors Jae Hee Lee, Sergio Lanza, Stefan Wermter
在本文中，我们回顾了解释神经网络概念的最新方法。一旦识别出神经学习系统使用的概念，概念就可以充当学习和推理之间的自然联系，人们可以将这些概念与推理系统集成以进行推理，或者使用推理系统对其采取行动以改进或增强学习系统。另一方面，知识不仅可以从神经网络中提取，概念知识也可以插入到神经网络架构中。

Fractional Concepts in Neural Networks: Enhancing Activation and Loss Functions
Authors Zahra Alijani, Vojtech Molek
本文提出了一种在神经网络中使用分数概念来修改激活函数和损失函数的方法。该方法允许神经网络通过将训练过程的分数阶导数阶确定为附加超参数来定义和优化其激活函数。

Revisiting Transferable Adversarial Image Examples: Attack Categorization, Evaluation Guidelines, and New Insights
Authors Zhengyu Zhao, Hanwei Zhang, Renjue Li, Ronan Sicre, Laurent Amsaleg, Michael Backes, Qi Li, Chao Shen
可转移的对抗性示例在现实世界的黑盒攻击场景中引发了严重的安全问题。然而，在这项工作中，我们发现了常见评估实践中的两个主要问题 1 对于攻击可转移性，缺乏系统的、一对一的攻击比较和公平的超参数设置。 2 对于攻击隐秘性，根本没有可比性。为了解决这些问题，我们建立了新的评估指南，方法是：1提出一种新颖的攻击分类策略，并对可转移性进行系统且公平的类别内分析；2从攻击追溯的角度考虑不同的不可感知性指标和更细粒度的隐秘性特征。为此，我们首次对 ImageNet 上的可转移对抗样本进行大规模评估，涉及 23 种代表性攻击和 9 种代表性防御。我们的评估得出了许多新的见解，包括挑战共识的见解 1 在公平的攻击超参数设置下，一种早期攻击方法 DI 实际上优于所有后续方法。 2 最先进的防御 DiffPure 实际上给人一种白盒安全的错觉，因为它确实在很大程度上被我们的黑盒可转移攻击所绕过。 3 即使所有攻击都受到相同的 L p 范数限制，它们也会导致显着不同的隐秘性能，这与它们的可转移性能呈负相关。

Perceptual Measurements, Distances and Metrics
Authors Jonathan Vacher, Pascal Mamassian
感知通常被视为将观察者外部的物理变量转化为内部心理变量的过程。这样的过程可以通过创建感知尺度的函数来建模。感知尺度可以从心理物理测量中推导出来，心理物理测量包括比较刺激之间的相对差异，即差异尺度实验。然而，这种方法经常被建模和实验社区忽视。在这里，我们通过将其嵌入到最近的感知概率建模中，展示了测量经典空间频率、方向和纹理之间不太经典的物理变量插值的感知尺度的价值。首先，我们表明，在遵循理论框架时，观察者具有单变量参数（例如空间频率或方向）的内部表示而刺激是高维的这一假设不会导致矛盾的预测。其次，我们表明测量的感知尺度对应于该框架中假设的转导函数。特别是，我们证明它与感知基础的生成模型的费舍尔信息有关，并且我们在一组差异尺度实验中测试了不同刺激的生成模型给出的预测。我们的主要结论是，感知尺度主要由刺激功率谱驱动。

MISAR: A Multimodal Instructional System with Augmented Reality
Authors Jing Bi, Nguyen Manh Nguyen, Ali Vosoughi, Chenliang Xu
增强现实 AR 需要视觉、听觉和语言通道的无缝集成，以优化人机交互。虽然听觉和视觉输入有助于实时和上下文用户指导，但大型语言模型法学硕士在这一领域的潜力在很大程度上尚未开发。我们的研究介绍了一种利用法学硕士吸收来自视觉、听觉和情境模式的信息的创新方法。专注于 AR 中任务绩效量化的独特挑战，我们利用以自我为中心的视频、语音和上下文分析。 LLM 的集成有助于增强状态估计，标志着向更具适应性的 AR 系统迈出了一步。

VKIE: The Application of Key Information Extraction on Video Text
Authors Siyu An, Ye Liu, Haoyuan Peng, Di Yin
从视频中提取结构化信息对于行业中的众多下游应用至关重要。在本文中，我们定义了从视频上的视觉文本中提取分层关键信息的重要任务。为了完成这个任务，我们将其解耦为四个子任务，并引入两个实现解决方案，称为 PipVKIE 和 UniVKIE。 PipVKIE 在连续阶段中顺序完成四个子任务，而 UniVKIE 通过将所有子任务统一到一个主干中进行改进。 PipVKIE 和 UniVKIE 都利用来自视觉、文本和坐标的多模态信息来进行特征表示。在一个明确定义的数据集上进行的广泛实验表明，我们的解决方案可以实现卓越的性能和高效的推理速度。

Classification of Safety Driver Attention During Autonomous Vehicle Operation
Authors Santiago Gerling Konrad, Julie Stephany Berrio, Mao Shan, Favio Masson, Stewart Worrall
尽管高级驾驶员辅助系统 ADAS 不断取得进步，并且高级自动驾驶汽车 AV 不断发展，但人们普遍认为，在中短期内，需要人工主管来处理不可避免出现的边缘情况。鉴于这一要求，必须监控车辆操作员的状态，以确保他们为车辆的安全运行做出贡献。本文介绍了一种双源方法，集成来自面向车辆操作员的红外摄像头和车辆感知系统的数据，以生成驾驶员警觉性指标，以促进和确保操作员的安全行为。红外摄像头检测驾驶员的头部，从而能够计算头部方向，这是相关的，因为头部通常根据个人的注意力焦点移动。通过结合来自感知系统的环境数据，可以确定车辆操作员是否观察到周围的物体。使用在澳大利亚悉尼收集的数据进行实验，模拟城市环境中的自动驾驶汽车操作。我们的结果表明，所提出的系统有效地确定了车辆操作员注意力水平的指标，从而可以适当地进行警告或减少自主功能等干预措施。

Studying the Effects of Sex-related Differences on Brain Age Prediction using brain MR Imaging
Authors Mahsa Dibaji, Neha Gianchandani, Akhil Nair, Mansi Singhal, Roberto Souza, Mariana Bento
在利用机器学习模型时，最关键的方面之一是偏见和公平如何影响不同人口统计的模型结果。这在医学成像应用的机器学习背景下变得尤其重要，因为这些模型越来越多地用于诊断和治疗计划。在本文中，我们在开发基于脑磁共振图像 MRI 的机器学习模型时研究了与性别相关的偏见。我们通过考虑仅使用女性受试者、仅使用男性受试者和平衡数据集训练的不同实验设计模型来进行大脑年龄预测来研究性别的影响。我们还对多个 MRI 数据集 Calgary Campinas CC359 和 CamCAN 进行评估，以评估所提出模型的泛化能力。我们发现，在不同性别亚组和数据集上进行训练时，大脑年龄预测模型在使用可解释性模型评估的最终预测和决策中的表现存在差异。我们的结果证明了模型在特定性别亚组中的普遍性存在差异，这表明在不平衡数据集上训练的模型存在潜在偏差。

Learning Lens Blur Fields
Authors Esther Y. H. Lin, Zhecheng Wang, Rebecca Lin, Daniel Miau, Florian Kainz, Jiawen Chen, Xuaner Cecilia Zhang, David B. Lindell, Kiriakos N. Kutulakos
光学模糊是任何镜头系统的固有属性，由于现代相机的光学元件复杂，因此在现代相机中建模具有挑战性。为了应对这一挑战，我们引入了镜头模糊场模糊文本的高维神经表示以及获取它的实用方法。镜头模糊场是一个多层感知器 MLP，旨在 1 准确捕获镜头 2D 点扩散函数在图像平面位置、焦距设置和（可选）深度上的变化，2 将这些变化以参数方式表示为单个传感器特定函数。该表示模型模拟了散焦、衍射、像差的综合影响，并考虑了像素滤色镜和像素特定微透镜等传感器特征。为了了解给定设备的真实世界模糊场，我们制定了一个广义非盲反卷积问题，该问题使用一小组焦点堆栈作为唯一输入来直接优化 MLP 权重。我们还为智能手机相机、配备各种镜头的相机机身等提供了首个 5D 模糊场数据集。最后，我们证明所获取的 5D 模糊场具有足够的表现力和准确性，足以首次揭示：

Whole-brain radiomics for clustered federated personalization in brain tumor segmentation
Authors Matthis Manthe MYRIAD, LIRIS , Stefan Duffner LIRIS , Carole Lartizien MYRIAD
联邦学习及其在医学图像分割中的应用最近成为一个热门的研究课题。这种训练范式受到参与机构本地数据集之间统计异质性的影响，与经典训练相比，会导致收敛速度减慢以及潜在的准确性损失。为了减轻这种影响，联合个性化作为每个机构一个模型的联合优化而出现。我们提出了一种新颖的个性化算法，针对不同机构使用不同扫描仪和采集参数所引起的特征变化。该方法是第一个考虑单个机构中使用的多个扫描仪的机构间和机构内特征转移的方法。它基于每个中心内捕获每个 3D 图像体积的全局纹理的一系列放射组学特征的计算，然后进行聚类分析，汇集从本地机构传输到中央服务器的所有特征向量。每个计算的集群分散数据集可能包括来自不同机构的数据，然后用于微调通过经典联邦学习获得的全局模型。我们在联合脑肿瘤分割 2022 挑战数据集 FeTS2022 上验证了我们的方法。

ASP: Automatic Selection of Proxy dataset for efficient AutoML
Authors Peng Yao, Chao Liao, Jiyuan Jia, Jianchao Tan, Bin Chen, Chengru Song, Di Zhang
由于数据量的不断增加和多样化的有效神经网络设计，深度神经网络取得了巨大的成功。然而，由于训练数据量与训练时间成正比，它也带来了沉重的计算负担。此外，一个表现良好的模型需要重复试验不同的结构设计和超参数，即使使用最先进的 SOTA 超参数优化 HPO 算法和神经架构搜索 NAS 算法，这也可能需要大量时间。在本文中，我们提出了一种代理数据集框架 ASP 的自动选择，旨在动态查找每个时期训练数据的信息代理子集，减少训练数据大小并节省 AutoML 处理时间。我们在各种公共模型基准测试中验证了 ASP 在 CIFAR10、CIFAR100、ImageNet16 120 和 ImageNet 1k 上的有效性和泛化性。实验结果表明，在所有选择比例下，ASP都能比其他数据选择方法获得更好的结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com