【AI视野·今日CV 计算机视觉论文速览第253期】Mon, 25 Sep 2023_lmc: large model collaboration with cross-assessme-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133346418

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 25 Sep 2023
Totally 64 papers
👉上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
Authors Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
我们提出了 MosaicFusion，一种简单而有效的基于扩散的数据增强方法，用于大词汇量实例分割。我们的方法是免费培训的，不依赖任何标签监督。两个关键设计使我们能够采用现成的文本到图像扩散模型作为对象实例和掩模注释的有用数据集生成器。首先，我们将图像画布划分为多个区域，并执行单轮扩散过程以同时生成多个实例，并根据不同的文本提示进行调节。其次，我们通过跨层和扩散时间步骤聚合与对象提示相关的交叉注意图来获得相应的实例掩模，然后进行简单的阈值处理和边缘感知细化处理。没有花里胡哨的东西，我们的 MosaicFusion 可以为稀有类别和新颖类别生成大量合成标记数据。在具有挑战性的 LVIS 长尾和开放词汇基准上的实验结果表明，MosaicFusion 可以显着提高现有实例分割模型的性能，特别是对于稀有和新颖的类别。

NeRRF: 3D Reconstruction and View Synthesis for Transparent and Specular Objects with Neural Refractive-Reflective Fields
Authors Xiaoxue Chen, Junchen Liu, Hao Zhao, Guyue Zhou, Ya Qin Zhang
神经辐射场 NeRF 彻底改变了基于图像的视图合成领域。然而，NeRF使用直线光线，无法处理折射和反射引起的复杂光路变化。这使得 NeRF 无法成功合成透明或镜面物体，而这些物体在现实世界的机器人和 VR 应用中无处不在。在本文中，我们介绍了折射反射场。以物体轮廓为输入，我们首先利用渐进式编码的行进四面体来重建非朗伯物体的几何形状，然后使用菲涅耳项在统一的框架中对物体的折射和反射效果进行建模。同时，为了实现高效且有效的抗锯齿，我们提出了虚拟锥体超级采样技术。我们在现实世界和合成数据集上的不同形状、背景和菲涅耳项上对我们的方法进行基准测试。我们还对各种编辑应用程序的渲染结果进行定性和定量基准测试，包括材质编辑、对象替换插入和环境照明估计。

Privacy Assessment on Reconstructed Images: Are Existing Evaluation Metrics Faithful to Human Perception?
Authors Xiaoxiao Sun, Nidham Gazagnadou, Vivek Sharma, Lingjuan Lyu, Hongdong Li, Liang Zheng
手工制作的图像质量指标（例如 PSNR 和 SSIM）通常用于评估重建攻击下的模型隐私风险。根据这些指标，被确定与原始图像相似的重建图像通常表明更多的隐私泄露。另一方面，被确定为整体不相似的图像表明针对攻击的鲁棒性更高。然而，并不能保证这些指标能够很好地反映人类的观点，而人类的观点作为模型隐私泄露的判断更值得信赖。在本文中，我们全面研究了这些手工制作的指标对人类从重建图像中感知隐私信息的忠实度。在从自然图像、人脸到细粒度类别的 5 个数据集上，我们使用 4 种现有的攻击方法从许多不同的分类模型中重建图像，并且对于每个重建图像，我们要求多个人类注释者评估该图像是否可识别。我们的研究表明，手工制定的指标与人类对隐私泄露的评估只有微弱的相关性，甚至这些指标本身也经常相互矛盾。这些观察结果表明社区当前指标存在风险。为了解决这种潜在风险，我们提出了一种名为 SemSim 的基于学习的方法来评估原始图像和重建图像之间的语义相似性。 SemSim 使用标准三元组损失进行训练，使用原始图像作为锚点，将其可识别的重建图像之一作为正样本，将不可识别的图像作为负样本。通过人工标注的训练，SemSim 在语义层面上更好地体现了隐私泄露问题。我们发现，与现有指标相比，SemSim 与人类判断的相关性明显更高。

Deep3DSketch+: Rapid 3D Modeling from Single Free-hand Sketches
Authors Tianrun Chen, Chenglong Fu, Ying Zang, Lanyun Zhu, Jia Zhang, Papa Mao, Lingyun Sun
AR VR的快速发展带来了对3D内容的巨大需求。虽然广泛使用的计算机辅助设计 CAD 方法需要耗时且劳动密集型的建模过程，但基于草图的 3D 建模作为计算机与人机交互的自然形式提供了潜在的解决方案。然而，草图的稀疏性和模糊性使得生成反映创作者想法的高保真内容变得具有挑战性。通常需要从多个视图进行精确绘图或战略性逐步绘图来应对挑战，但这对新手用户来说并不友好。在这项工作中，我们引入了一种新颖的端到端方法 Deep3DSketch，该方法仅使用单个徒手草图即可执行 3D 建模，而无需输入多个草图或视图信息。具体来说，我们引入了一种用于实时高效推理的轻量级生成网络，以及一种结构感知对抗训练方法，该方法具有中风增强模块 SEM 来捕获结构信息，以促进学习真实且精细的详细形状结构，从而实现高保真性能。

License Plate Recognition Based On Multi-Angle View Model
Authors Dat Tran Anh, Khanh Linh Tran, Hoai Nam Vu
在研究领域，对摄像机捕获的图像视频中的文本进行检测识别对研究人员来说是一个极具挑战性的问题。尽管取得了某些进步，实现了高精度，但当前的方法仍需要大量改进才能适用于实际场景。与图像视频中的文本检测不同，本文通过合并不同视角的多个帧来解决车牌内的文本检测问题。对于每个视点，所提出的方法提取表征车牌文本组件的描述性特征，特别是角点和区域。具体来说，我们提出了三个视点视图 1、视图 2 和视图 3，以识别最近的相邻组件，从而有助于基于相似性级别和距离度量的估计从同一车牌行恢复文本组件。随后，我们采用 CnOCR 方法进行车牌文本识别。

Detect Every Thing with Few Examples
Authors Xinyu Zhang, Yuting Wang, Abdeslam Boularias
开放集对象检测旨在检测训练期间看到的任意类别。最近的进展采用了开放词汇范式，利用视觉语言主干来用语言表示类别。在本文中，我们介绍了 DE ViT，这是一种开放集目标检测器，仅采用视觉 DINOv2 主干，并通过示例图像而不是语言来学习新类别。为了提高一般检测能力，我们将多分类任务转换为二元分类任务，同时绕过每类推理，并提出了一种新颖的区域传播技术用于定位。我们使用 COCO 和 LVIS 在开放词汇、少样本和单样本目标检测基准上评估 DE ViT。对于 COCO，DE ViT 比开放词汇 SoTA 表现好 6.9 AP50，并且在新颖类中达到 50 AP50。 DE ViT 在 10 次射击中比少数射击 SoTA 多出 15 mAP，在 30 次射击中超过 7.2 mAP，在 1 次射击 SoTA 中超过 2.8 AP50。对于 LVIS，DE ViT 的性能优于开放词汇 SoTA 2.2 mask AP，达到 34.3 mask APr。

Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation
Authors Wei Zhai, Pingyu Wu, Kai Zhu, Yang Cao, Feng Wu, Zheng Jun Zha
弱监督对象定位和语义分割旨在仅使用图像级标签来定位对象。最近，出现了一种新的范式，通过生成前景预测图 FPM 来实现像素级定位。虽然现有的基于 FPM 的方法使用交叉熵来评估前景预测图并指导生成器的学习，但本文提出了关于对象定位学习过程的两个令人惊讶的实验观察结果对于经过训练的网络，随着前景掩模的扩展，1 交叉熵当前景掩模仅覆盖部分对象区域时，熵收敛于零。 2 激活值不断增加，直到前景掩模扩展到对象边界。因此，为了实现更有效的定位性能，我们主张使用激活值来学习更多的对象区域。在本文中，我们提出了一种背景激活抑制BAS方法。具体来说，设计了一个激活图约束AMC模块，通过抑制背景激活值来促进生成器的学习。同时，通过使用前景区域引导和区域约束，BAS可以学习物体的整个区域。在推理阶段，我们将不同类别的预测图一起考虑以获得最终的定位结果。大量实验表明，BAS 在 CUB 200 2011 和 ILSVRC 数据集上比基线方法取得了显着且一致的改进。此外，我们的方法还在 PASCAL VOC 2012 和 MS COCO 2014 数据集上实现了最先进的弱监督语义分割性能。

Gravity Network for end-to-end small lesion detection
Authors Ciro Russo, Alessandro Bria, Claudio Marrocco
本文介绍了一种新型单级端到端检测器，专门用于检测医学图像中的小病变。由于小病灶的外观和发现它们的背景不同，精确定位小病灶面临着挑战。为了解决这个问题，我们的方法引入了一种新型的基于像素的锚点，它动态地移向目标病变进行检测。我们将这种新架构称为 GravityNet，并将新颖的锚点称为重力点，因为它们似乎被病变吸引。我们对涉及小病变的两个已确定的医学问题进行了实验，以评估所提出的数字乳房 X 光检查中的微钙化检测和数字眼底图像中的微动脉瘤检测方法的性能。

Accurate and Fast Compressed Video Captioning
Authors Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang
现有的视频字幕方法通常需要首先从解码视频中采样视频帧，然后进行后续过程，例如特征提取和/或字幕模型学习。在此流程中，手动帧采样可能会忽略视频中的关键信息，从而降低性能。此外，采样帧中的冗余信息可能会导致视频字幕的推理效率低下。为了解决这个问题，我们从压缩域的不同角度研究视频字幕，这比现有的管道具有多重优势1 与解码视频中的原始图像相比，由 I 帧、运动向量和残差组成的压缩视频具有高度的优势。可区分，这使我们能够利用整个视频进行学习，而无需通过专门的模型设计进行手动采样2。随着处理的信息更小、冗余更少，字幕模型的推理效率更高。我们在视频字幕的压缩域中提出了一种简单而有效的端到端转换器，可以从压缩视频中学习字幕。我们证明，即使采用简单的设计，我们的方法也可以在不同的基准上实现最先进的性能，同时运行速度比现有方法快近 2 倍。

Bridging Sensor Gaps via Single-Direction Tuning for Hyperspectral Image Classification
Authors Xizhe Xue, Haokui Zhang, Ying Li, Liuwei Wan, Zongwen Bai, Mike Zheng Shou
最近，一些研究人员开始探索使用 ViT 来解决 HSI 分类问题，并取得了显着的成果。然而，ViT模型的训练需要相当数量的训练样本，而高光谱数据由于其标注成本较高，通常训练样本数量相对较少。这一矛盾并未得到有效解决。在本文中，为了解决这个问题，我们提出了单向调整SDT策略，它作为桥梁，使我们能够利用现有的标记HSI数据集甚至RGB数据集来增强在有限样本的新HSI数据集上的性能。所提出的 SDT 继承了即时调优的思想，旨在以最小的修改重用预先训练的模型来适应新任务。但与即时调整不同，SDT 是定制设计的，以适应 HSI 的特性。所提出的SDT采用并行架构、异步冷热梯度更新策略和单向交互。它的目标是充分利用来自异源甚至跨模态数据集训练的强大表示学习能力。此外，我们还引入了一种新颖的 Triplet 结构变压器 TriFormer，其中并行合并频谱注意力和空间注意力模块以构建令牌混合组件以降低计算成本，并集成基于 3D 卷积的通道混合器模块以增强稳定性并保持结构信息。对不同传感器捕获的三个代表性 HSI 数据集进行的比较实验表明，与几种最先进的方法相比，所提出的 Tri Form 实现了更好的性能。

SRFNet: Monocular Depth Estimation with Fine-grained Structure via Spatial Reliability-oriented Fusion of Frames and Events
Authors Tianbo Pan, Zidong Cao, Lin Wang
单目深度估计是测量相对于相机的距离的一项关键任务，这对于机器人导航和自动驾驶等应用非常重要。传统的基于帧的方法由于动态范围有限和运动模糊而导致性能下降。因此，最近的工作利用新颖的事件相机通过帧事件特征融合来补充或指导帧模态。然而，事件流表现出空间稀疏性，导致某些区域未被察觉，特别是在光线变化微小的区域。因此，直接融合方法，例如 RAMNet，经常忽略每种模态最置信区域的贡献。这导致模态融合过程中的结构模糊，从而降低深度估计性能。在本文中，我们提出了一种新颖的面向空间可靠性的融合网络SRFNet，它可以在白天和夜间以细粒度结构估计深度。我们的方法由两个关键技术组成部分组成。首先，我们提出了一种基于注意力的交互式融合 AIF 模块，该模块应用事件和帧的空间先验作为初始掩模，并学习共识区域来指导模间特征融合。然后反馈融合的特征以增强帧和事件特征学习。同时，它利用输出头生成融合掩模，该融合掩模被迭代更新以学习一致的空间先验。其次，我们提出了面向可靠性的深度细化 RDR 模块，以基于融合特征和掩模的细粒度结构来估计密集深度。我们评估了我们的方法在合成数据集和现实世界数据集上的有效性，这表明，即使没有预训练，我们的方法也优于先前的方法，例如 RAMNet，尤其是在夜景中。

Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language Segmentation in Echocardiography
Authors Rabin Adhikari, Manish Dhakal, Safal Thapaliya, Kanchan Poudel, Prasiddha Bhandari, Bishesh Khanal
准确的分割对于基于超声心动图的心血管疾病CVD评估至关重要。然而，超声医师之间的差异和超声图像固有的挑战阻碍了精确分割。通过利用图像和文本模式的联合表示，视觉语言分割模型 VLSM 可以整合丰富的上下文信息，可能有助于准确且可解释的分割。然而，缺乏现成的超声心动图数据阻碍了 VLSM 的训练。在本研究中，我们探索使用语义扩散模型 SDM 的合成数据集来增强用于超声心动图分割的 VLSM。我们使用从多个属性派生的七种不同类型的语言提示来评估两种流行的 VLSM CLIPSeg 和 CRIS 的结果，这些属性是从超声心动图图像、分割掩模及其元数据中自动提取的。我们的结果表明，在对真实图像进行微调之前，在 SDM 生成的合成图像上预训练 VLSM 时，指标会得到改进，收敛速度会更快。

Domain Adaptive Few-Shot Open-Set Learning
Authors Debabrata Pal, Deeptej More, Sai Bhargav, Dipesh Tamboli, Vaneet Aggarwal, Biplab Banerjee
很少有镜头学习在解决从目标查询集中的新类别中识别未知样本以及管理域之间的视觉变化的关键挑战方面取得了令人印象深刻的进展。然而，现有技术在通过学习拒绝源域中的伪异常值来识别域转移下的目标异常值时存在不足，导致这两个问题的解决方案不完整。为了全面应对这些挑战，我们提出了一种称为域自适应少样本开放集识别 DA FSOS 的新方法，并引入了一种名为 DAFOSNET 的基于元学习的架构。在训练过程中，我们的模型学习共享和有区别的嵌入空间，同时创建伪开放空间决策边界，给定完全监督的源域和不相交的少数镜头目标域的标签。为了提高数据密度，我们使用一对具有可调噪声方差的条件对抗网络来增强封闭域和伪开放空间。此外，我们提出了一种特定于域的批量归一化类原型对齐策略，以全局对齐两个域，同时通过新颖的度量目标确保类区分性。我们的训练方法确保 DAFOS NET 能够很好地推广到目标领域的新场景。

Scalable Semantic 3D Mapping of Coral Reefs with Deep Learning
Authors Jonathan Sauder, Guilhem Banc Prandi, Anders Meibom, Devis Tuia
珊瑚礁是地球上最多样化的生态系统之一，为数亿人所依赖。不幸的是，大多数珊瑚礁的生存受到全球气候变化和当地人为压力的威胁。为了更好地了解珊瑚礁恶化的动态，高空间和时间分辨率的监测是关键。然而，由于需要大量的体力劳动，量化珊瑚覆盖和物种丰度的传统监测方法规模有限。尽管计算机视觉工具已被用来帮助这一过程，特别是用于 3D 映射的 SfM 摄影测量和用于图像分割的深度神经网络，但数据产品的分析产生了瓶颈，有效地限制了其可扩展性。本文提出了一种根据自我运动视频绘制水下环境的新范例，统一了使用机器学习来适应水下挑战性条件的 3D 绘图系统，并结合了图像语义分割的现代方法。该方法以红海亚喀巴湾北部的珊瑚礁为例，展示了前所未有的高精度 3D 语义测绘，同时显着降低了所需的劳动力成本，使用廉价的消费级相机在潜水 5 分钟内即可获取 100 m 的视频横断面5分钟内全自动分析。我们的方法通过迈向全自动视频横断面分析，显着扩大了珊瑚礁监测范围。该方法通过减少劳动力、设备、物流和计算成本，使珊瑚礁横断面民主化。这有助于更有效地为保护政策提供信息。

NOC: High-Quality Neural Object Cloning with 3D Lifting of Segment Anything
Authors Xiaobao Wei, Renrui Zhang, Jiarui Wu, Jiaming Liu, Ming Lu, Yandong Guo, Shanghang Zhang
随着神经领域的发展，从多视图输入重建目标对象的 3D 模型最近引起了社区越来越多的关注。现有的方法通常学习整个场景的神经场，而如何重建用户即时指示的某个对象仍在探索中。考虑到分割任何模型 SAM 在分割任何 2D 图像方面表现出了有效性，在本文中，我们提出了神经对象克隆 NOC，一种新颖的高质量 3D 对象重建方法，它从两个方面利用了神经场和 SAM 的优点。首先，为了将目标对象与场景分离，我们提出了一种新颖的策略，将 SAM 的多视图 2D 分割掩模提升为统一的 3D 变化场。然后将 3D 变化场投影到 2D 空间并生成 SAM 的新提示。这个过程是迭代的，直到收敛，将目标对象从场景中分离出来。然后，除了2D掩模之外，我们进一步将SAM编码器的2D特征提升到3D SAM字段中，以提高目标对象的重建质量。 NOC 将 SAM 的 2D 掩模和特征提升到 3D 神经场中，以实现高质量的目标对象重建。我们对几个基准数据集进行了详细的实验，以证明我们的方法的优势。

EMS: 3D Eyebrow Modeling from Single-view Images
Authors Chenghong Li, Leyang Jin, Yujian Zheng, Yizhou Yu, Xiaoguang Han
眉毛对于面部表情和外表起着至关重要的作用。尽管面部 3D 数字化已得到很好的探索，但 3D 眉毛建模却很少受到关注。在这项工作中，我们提出了 EMS，这是第一个基于学习的单视图 3D 眉毛重建框架。遵循头皮毛发重建的方法，我们也将眉毛表示为一组纤维曲线，并将重建转化为纤维生长问题。然后精心设计了三个模块 RootFinder 首先定位纤维根位置，指示生长位置 OriPredictor 预测 3D 空间中的方向场以指导纤维生长 FiberEnder 旨在确定何时停止每根纤维的生长。我们的OriPredictor直接借鉴了头发重建中使用的方法。考虑到头发和眉毛的差异，RootFinder和FiberEnder都是新提出的。具体来说，为了应对根位置被严重遮挡的挑战，我们将根定位制定为密度图估计任务。给定预测的密度图，进一步使用基于密度的聚类方法来查找根。对于每根纤维，生长从根点开始，逐步移动直至结束，其中每一步都根据预测的取向场定义为具有恒定长度的取向线。为了确定何时结束，设计了像素对齐的 RNN 架构来形成二元分类器，该分类器针对每个生长步骤输出停止或不停止的结果。为了支持所有提出的网络的训练，我们构建了第一个 3D 合成眉毛数据集，其中包含由艺术家手动创建的 400 个高质量眉毛模型。

LMC: Large Model Collaboration with Cross-assessment for Training-Free Open-Set Object Recognition
Authors Haoxuan Qu, Xiaofei Hui, Yujun Cai, Jun Liu
开放集对象识别旨在识别对象是否来自训练期间遇到的类。为了准确地执行开放集对象识别，一个关键的挑战是如何减少对虚假判别特征的依赖。在本文中，由于通过不同范式预训练的不同大型模型可以拥有非常丰富而独特的隐式知识，我们提出了一种名为大型模型协作LMC的新颖框架，通过在训练中协作不同的现成大型模型来解决上述挑战自由的方式。此外，我们还将所提出的框架与几种新颖的设计相结合，以有效地从大型模型中提取隐式知识。大量的实验证明了我们提出的框架的有效性。

WiCV@CVPR2023: The Eleventh Women In Computer Vision Workshop at the Annual CVPR Conference
Authors Doris Antensteiner, Marah Halawa, Asra Aslam, Ivaxi Sheth, Sachini Herath, Ziqi Huang, Sunnie S. Y. Kim, Aparna Akula, Xin Wang
在本文中，我们介绍了 WiCV 2023 计算机视觉女性研讨会的详细信息，该研讨会与加拿大温哥华的混合 CVPR 2023 一起组织。 WiCV 旨在扩大计算机视觉社区中代表性不足的女性的声音，提高在学术界和工业界的知名度。我们相信，此类活动对于解决该领域内的性别失衡问题发挥着至关重要的作用。一年一度的 WiCV CVPR 研讨会为来自少数群体的研究人员提供了合作的机会，b 为女性初级研究人员提供指导，c 为演讲者提供经济支持，以减轻财务负担，并提供各种可以在职业生涯初期激励年轻研究人员的榜样。

S3TC: Spiking Separated Spatial and Temporal Convolutions with Unsupervised STDP-based Learning for Action Recognition
Authors Mireille El Assal, Pierre Tirilly, Ioan Marius Bilasco
视频分析是近年来受到广泛关注的一项主要计算机视觉任务。当前最先进的视频分析性能是通过深度神经网络 DNN 实现的，其计算成本很高，并且需要大量标记数据进行训练。尖峰神经网络当在神经形态硬件上实现时，SNN 的计算成本比常规非尖峰网络低数千倍。它们已用于通过 3D 卷积尖峰神经网络 3D CSNN 等方法进行视频分析。然而，与尖峰 2D CSNN 相比，这些网络的参数数量明显更多。这不仅增加了计算成本，而且使这些网络更难以用神经形态硬件实现。在这项工作中，我们使用采用尖峰时序相关可塑性 STDP 规则以无监督方式训练的 CSNN，并且我们首次引入尖峰分离空间和时间卷积 S3TC，以减少视频分析所需的参数数量。这种无监督学习的优点是不需要大量的标记数据进行训练。将单个时空尖峰卷积分解为空间和时间尖峰卷积减少了网络参数的数量。

Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where
Authors Zhi Yi Chin, Chieh Ming Jiang, Ching Chun Huang, Pin Yu Chen, Wei Chen Chiu
虽然由于标记化过程和视觉变换器骨干的引入，图像数据开始享受基于掩蔽和自重建目标的简单但有效的自监督学习方案，但卷积神经网络作为图像数据的另一种重要且广泛采用的架构，尽管具有对比性驱动自我监督学习的学习技术仍然面临着利用这种简单而通用的掩蔽操作来显着有益于他们的学习过程的困难。在这项工作中，我们的目标是减轻将掩蔽操作作为一种额外的增强方法纳入卷积神经网络的对比学习框架的负担。除了掩蔽和未掩蔽区域之间的附加但不需要的边缘以及由卷积网络的掩蔽操作引起的其他不利影响（这些已在之前的工作中讨论过）之外，我们还特别确定了对比样本对中的一个视图的潜在问题随机采样的掩蔽区域可能会过度集中在重要的显着对象上，从而导致与其他视图的误导性对比。为此，我们建议明确考虑显着性约束，其中掩模区域在前景和背景之间更均匀地分布，以实现基于掩模的增强。此外，我们通过屏蔽输入图像中较大的显着斑块区域来引入硬负样本。

Transformer-based Image Compression with Variable Image Quality Objectives
Authors Chia Hao Kao, Yi Hsin Chen, Cheng Chien, Wei Chen Chiu, Wen Hsiao Peng
本文提出了一种基于 Transformer 的图像压缩系统，该系统允许根据用户的偏好实现可变的图像质量目标。针对不同的质量目标优化学习的编解码器会导致重建具有不同视觉特征的图像。我们的方法为用户提供了使用单个共享模型在两个图像质量目标之间进行权衡的灵活性。受到提示调整技术成功的激励，我们引入提示标记来调节基于 Transformer 的自动编码器。这些提示标记是通过学习提示生成网络根据用户的偏好和输入图像自适应生成的。对常用质量指标的大量实验证明了我们的方法在使编码和/或解码过程适应可变质量目标方面的有效性。

PointSSC: A Cooperative Vehicle-Infrastructure Point Cloud Benchmark for Semantic Scene Completion
Authors Yuxiang Yan, Boda Liu, Jianfei Ai, Qinbu Li, Ru Wan, Jian Pu
语义场景完成 SSC 旨在为复杂的 3D 场景联合生成空间占用和语义标签。大多数现有的 SSC 模型都专注于体积表示，这对于大型室外空间来说内存效率低下。点云提供了一种轻量级的替代方案，但现有的基准测试缺乏带有语义标签的室外点云场景。为了解决这个问题，我们引入了 PointSSC，这是第一个用于语义场景完成的协作车辆基础设施点云基准。这些场景表现出远距离感知和最小的遮挡。我们开发了一个自动注释管道，利用 Segment Anything 来有效地分配语义。为了衡量进度，我们提出了一种基于 LiDAR 的模型，其中包含用于全局和局部特征提取的空间感知变换器以及用于联合完成和分割的完成和分割协作模块。

mixed attention auto encoder for multi-class industrial anomaly detection
Authors Jiangqi Liu, Feng Wang
大多数现有的无监督工业异常检测方法都会为每个对象类别训练一个单独的模型。这种方法可以轻松捕获类别特定的特征分布，但导致存储成本高且训练效率低。在本文中，我们提出了一种统一的混合注意力自动编码器 MAAE，以使用单个模型实现多类异常检测。为了减轻由于不同类别的不同分布模式而导致的性能下降，我们采用空间注意力和通道注意力来有效捕获全局类别信息并对多个类别的特征分布进行建模。此外，为了模拟特征上的真实噪声并保留不同类别对象的表面语义（这对于检测细微异常至关重要），我们提出了一种自适应噪声生成器和用于预训练特征的多尺度融合模块。

Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding
Authors Jiazhen Wang, Bin Liu, Changtao Miao, Zhiwei Zhao, Wanyi Zhuang, Qi Chu, Nenghai Yu
人工智能合成文本和图像受到了广泛关注，特别是由于多模式操作在互联网上的广泛传播，这对社会造成了许多负面影响。现有的多模态操纵检测和接地方法主要侧重于融合视觉语言特征来进行预测，而忽视了模态特定特征的重要性，从而导致次优结果。在本文中，我们构建了一个简单而新颖的基于变压器的框架，用于多模态操纵检测和接地任务。我们的框架同时探索模态特定特征，同时保留多模态对齐的能力。为了实现这一目标，我们引入了视觉语言预训练编码器和双分支交叉注意 DCA 来提取和融合模态独特特征。此外，我们设计了解耦的细粒度分类器 DFC，以增强模态特定特征挖掘并减轻模态竞争。此外，我们提出了一种隐式操作查询 IMQ，它使用可学习查询自适应地聚合每种模态内的全局上下文线索，从而改进伪造细节的发现。

FP-PET: Large Model, Multiple Loss And Focused Practice
Authors Yixin Chen, Ourui Fu, Wenrui Shao, Zhaoheng Xie
本研究提出了 FP PET，这是一种以 CT 和 PET 图像为重点的医学图像分割综合方法。该研究利用 AutoPet2023 挑战赛的数据集，采用各种机器学习模型，包括 STUNet large、SwinUNETR 和 VNet，以实现最先进的分割性能。该论文引入了一种聚合分数，结合了 Dice 分数、假阳性量 FPV 和假阴性量 FNV 等多种评估指标，以提供模型有效性的整体衡量标准。该研究还讨论了与在高性能 GPU 上进行的模型训练相关的计算挑战和解决方案。探索预处理和后处理技术，包括高斯加权方案和形态学操作，以进一步细化分割输出。

RHINO: Regularizing the Hash-based Implicit Neural Representation
Authors Hao Zhu, Fengyi Liu, Qi Zhang, Xun Cao, Zhan Ma
通过哈希表使用隐式神经表示 INR 在表征复杂信号方面表现出了令人印象深刻的有效性和效率。然而，当前最先进的方法表现出不充分的正则化，在插值期间经常产生不可靠且有噪声的结果。我们发现这个问题源于输入坐标和索引哈希键之间的梯度流被破坏，其中链式法则试图对离散哈希键而不是连续坐标进行建模。为了解决这个问题，我们引入了 RHINO，其中结合了连续分析函数，通过连接输入坐标和网络来促进正则化，而无需修改当前基于哈希的 INR 的架构。这种连接确保梯度从网络输出无缝反向传播回输入坐标，从而增强正则化。我们的实验结果不仅展示了跨不同基于哈希的 INR（如 DINER 和 Instant NGP）的扩展正则化能力，而且还展示了跨各种任务的正则化能力，例如图像拟合、符号距离函数的表示以及 5D 静态 6D 动态神经辐射场的优化。

Global Context Aggregation Network for Lightweight Saliency Detection of Surface Defects
Authors Feng Yan, Xiaoheng Jiang, Yang Lu, Lisha Cui, Shupan Li, Jiale Cao, Mingliang Xu, Dacheng Tao
表面缺陷检测是一项非常具有挑战性的任务，表面缺陷通常表现出较弱的外观或存在于复杂的背景下。大多数高精度缺陷检测方法需要昂贵的计算和存储开销，使得它们在某些资源受限的缺陷检测应用中不太实用。尽管一些轻量级方法以较少的参数实现了实时推理速度，但它们在复杂缺陷场景中的检测精度较差。为此，我们开发了一个全局上下文聚合网络 GCANet，用于编码器解码器结构上表面缺陷的轻量级显着性检测。首先，我们在轻量级骨干网的顶层引入了一种新颖的 Transformer 编码器，它通过新颖的深度自注意力 DSA 模块捕获全局上下文信息。所提出的 DSA 在通道维度上执行元素相似性，同时保持线性复杂度。此外，我们在每个解码器块之前引入了一种新颖的通道参考注意 CRA 模块，以加强自下而上路径中多级特征的表示。所提出的 CRA 利用不同层特征之间的通道相关性来自适应增强特征表示。在三个公共缺陷数据集上的实验结果表明，与其他 17 种最先进的方法相比，所提出的网络在准确性和运行效率之间实现了更好的权衡。

CINFormer: Transformer network with multi-stage CNN feature injection for surface defect segmentation
Authors Xiaoheng Jiang, Kaiyi Guo, Yang Lu, Feng Yan, Hao Liu, Jiale Cao, Mingliang Xu, Dacheng Tao
表面缺陷检测对于工业制造和生产具有重要意义。尽管基于深度学习的缺陷检测方法取得了显着进展，但这些方法仍然面临一些挑战，例如难以区分的弱缺陷和背景中的类干扰缺陷。为了解决这些问题，我们提出了一种具有多级 CNN 卷积神经网络特征注入的 Transformer 网络，用于表面缺陷分割，这是一个类似 UNet 的结构，名为 CINFormer。 CINFormer 提出了一种简单而有效的特征集成机制，将输入图像的多级 CNN 特征注入到编码器中 Transformer 网络的不同阶段。这可以保持 CNN 捕获详细特征和背景中变压器抑制噪声的优点，从而有利于准确的缺陷检测。此外，CINFormer提出了Top K自注意力模块来关注具有更重要的缺陷信息的token，从而进一步减少冗余背景的影响。

Decision Fusion Network with Perception Fine-tuning for Defect Classification
Authors Xiaoheng Jiang, Shilong Tian, Zhiwen Zhu, Yang Lu, Hao Liu, Li Chen, Shupan Li, Mingliang Xu
表面缺陷检测是工业检测中的一项重要任务。基于深度学习的方法在该领域表现出了良好的性能。尽管如此，这些方法在遇到低对比度缺陷和复杂背景等挑战时仍然会出现误判。为了克服这些问题，我们提出了一种决策融合网络 DFNet，它将语义决策与特征决策相结合，以增强网络的决策能力。特别是，我们引入了决策融合模块DFM，它从语义决策分支中提取语义向量，并为特征决策分支提取特征向量，并将它们融合以做出最终的分类决策。此外，我们提出了一个感知微调模块 PFM，可以在分割阶段微调前景和背景。 PFM 生成发送到分类决策阶段的语义和特征输出。此外，我们提出了一个内部外部分离权重矩阵来解决分割监督期间标签边缘不确定性的影响。

DeFormer: Integrating Transformers with Deformable Models for 3D Shape Abstraction from a Single Image
Authors Di Liu, Xiang Yu, Meng Ye, Qilong Zhangli, Zhuowei Li, Zhixing Zhang, Dimitris N. Metaxas
从单个 2D 图像中准确提取 3D 形状是计算机视觉和图形领域长期存在的问题。通过利用一组基元来表示目标形状，最近的方法取得了有希望的结果。然而，这些方法要么使用相对大量的图元，要么由于图元的可表达性有限而缺乏几何灵活性。在本文中，我们提出了一种新颖的双通道 Transformer 架构，与参数化变形模型集成，称为 DeFormer，以同时估计图元的全局和局部变形。通过这种方式，DeFormer 可以抽象复杂的对象形状，同时使用少量基元，提供更广泛的几何覆盖范围和更精细的细节。然后，我们引入力驱动的动态拟合和循环一致的重投影损失来优化原始参数。

BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain Tumor Detection
Authors Ming Kang, Chee Ming Ting, Fung Fung Ting, Rapha l C. W. Phan
You Only Look Once 基于 YOLO 的物体检测器在自动脑肿瘤检测方面表现出了极高的准确性。在本文中，我们通过将双层路由注意力 BRA、广义特征金字塔网络 GFPN、Forth 检测头和广义 IoU GIoU 边界框回归损失合并到 YOLOv8 中，开发了一种新颖的 BGFG YOLO 架构。 BGFG YOLO 包含注意力机制，更多地关注重要特征，特征金字塔网络通过将高级语义特征与空间细节合并来丰富特征表示。此外，我们研究了不同的注意力机制和特征融合、检测头架构对脑肿瘤检测准确性的影响。实验结果表明，与YOLOv8x相比，BGFG YOLO的mAP50绝对增加了3.4，并且在脑肿瘤检测数据集Br35H上达到了state of the art。

Classification of Alzheimers Disease with Deep Learning on Eye-tracking Data
Authors Harshinee Sriram, Cristina Conati, Thalia Field
现有研究表明，利用依赖于特定任务的工程特征的分类器，可以根据眼动追踪 ET 数据对阿尔茨海默病 AD 进行分类。在本文中，我们研究了是否可以通过使用对原始 ET 数据进行端到端训练的深度学习分类器来改进现有结果。该分类器 VTNet 并行使用 GRU 和 CNN，以利用 ET 数据的视觉 V 和时间 T 表示，之前用于在处理视觉显示时检测用户的混淆。将 VTNet 应用到我们的目标 AD 分类任务中的一个主要挑战是，可用的 ET 数据序列比之前的混淆检测任务中使用的数据序列长得多，这突破了基于 LSTM 的模型可管理的极限。

Triple-View Knowledge Distillation for Semi-Supervised Semantic Segmentation
Authors Ping Li, Junjie Chen, Li Yuan, Xianghua Xu, Mingli Song
为了减轻昂贵的人工标记，半监督语义分割采用少量标记图像和大量未标记图像来预测具有相同大小的像素级标记图。以前的方法经常采用使用两个具有相同架构但不同初始化的卷积网络进行协同训练，这无法捕获足够多样化的特征。这促使我们使用三重训练并开发三重视图编码器，以利用具有不同架构的编码器来导出不同的特征，并利用知识蒸馏技能来学习这些编码器之间的互补语义。此外，现有的方法只是简单地连接编码器和解码器的特征，导致需要大量内存成本的冗余特征。这启发我们设计一种双频解码器，通过将特征从空间域投影到频域来选择这些重要特征，其中引入双频通道注意机制来对特征重要性进行建模。因此，我们提出了一个三视图知识蒸馏框架，称为TriKD，用于半监督语义分割，包括三视图编码器和双频解码器。

A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language Guidance
Authors Zeyi Huang, Andy Zhou, Zijian Lin, Mu Cai, Haohan Wang, Yong Jae Lee
领域泛化研究使用来自多个领域或分布的样本训练模型，然后使用来自新的、不可见的领域的样本测试模型的问题。在本文中，我们提出了一种新的领域泛化方法，该方法利用大型视觉语言模型（特别是 CLIP 教师模型）的最新进展来训练泛化到未见领域的较小模型。关键的技术贡献是一种新型的正则化，它要求学生学习的图像表示接近教师学习的通过对图像的相应文本描述进行编码而获得的文本表示。我们介绍了损失函数的两种设计，绝对距离和相对距离，这为学生模型的训练过程应该如何正则化提供了具体指导。我们在各种基准数据集上评估了我们提出的方法，称为 RISE Regularized Invariance with Semantic Embeddings ，并表明它优于几种最先进的领域泛化方法。据我们所知，我们的工作是第一个利用大型视觉语言模型进行知识蒸馏来进行领域泛化的工作。

License Plate Super-Resolution Using Diffusion Models
Authors Sawsan AlHalawani, Bilel Benjdira, Adel Ammar, Anis Koubaa, Anas M. Ali
在监控中，车牌的准确识别往往因其质量低且尺寸小而受到阻碍，从而影响了识别精度。尽管基于人工智能的图像超分辨率取得了进步，但卷积神经网络 CNN 和生成对抗网络 GAN 等方法在增强车牌图像方面仍然存在不足。这项研究利用了最先进的扩散模型，该模型在图像恢复方面始终优于其他深度学习技术。通过使用沙特车牌的精选数据集（低分辨率和高分辨率）训练该模型，我们发现了扩散模型的卓越功效。该方法的峰值信噪比 PSNR 比 SwinIR 和 ESRGAN 分别提高了 12.55 和 37.32。此外，我们的方法在结构相似性指数 SSIM 方面超越了这些技术，分别比 SwinIR 和 ESRGAN 提高了 4.89 和 17.66。此外，92 名人类评估者更喜欢我们的图像而不是其他算法的图像。

Impact of architecture on robustness and interpretability of multispectral deep neural networks
Authors Charles Godfrey, Elise Bishoff, Myles McKay, Eleanor Byler
包含来自其他光谱带（例如近红外）的信息可以提高许多面向视觉的任务的深度学习模型性能。有许多可能的方法可以将这些附加信息合并到深度学习模型中，但最佳融合策略尚未确定，并且可能因应用程序而异。在一种极端情况下，称为早期融合，附加波段被堆叠为额外通道，以获得具有三个以上通道的输入图像。在另一个极端，称为后期融合，RGB 和非 RGB 波段通过深度学习模型的单独分支，并在最终分类或分割层之前立即合并。

DIOR: Dataset for Indoor-Outdoor Reidentification -- Long Range 3D/2D Skeleton Gait Collection Pipeline, Semi-Automated Gait Keypoint Labeling and Baseline Evaluation Methods
Authors Yuyang Chen, Praveen Raj Masilamani, Bhavin Jawade, Srirangaraj Setlur, Karthik Dantu
近年来，人们对远距离的人员识别和重新识别越来越感兴趣，例如通过屋顶摄像头、无人机摄像头、街道摄像头等。这种识别需要超越面部，并使用步态等全身标记。然而，用于训练和测试此类识别算法的数据集并不广泛流行，并且标记的数据集也较少。本文介绍了 DIOR 数据收集、半自动注释的框架，并提供了包含 14 个受试者和 164.9 万个带有 3D 2D 骨骼步态标签的 RGB 帧的数据集，其中包括来自远程相机的 20 万帧。我们的方法利用先进的 3D 计算机视觉技术，通过动作捕捉系统在室内环境中实现像素级精度。此外，对于户外远距离设置，我们消除了对动作捕捉系统的依赖，并采用低成本、混合 3D 计算机视觉和学习管道，仅使用 4 个低成本 RGB 摄像头，成功实现了对远处主体的精确骨骼标记，即使他们RGB 帧内的高度仅限于 20 25 像素。

Synthetic Image Detection: Highlights from the IEEE Video and Image Processing Cup 2022 Student Competition
Authors Davide Cozzolino, Koki Nagano, Lucas Thomaz, Angshul Majumdar, Luisa Verdoliva
视频和图像处理 VIP 杯是一项学生竞赛，每年在 IEEE 国际图像处理会议上举行。 2022 年 IEEE VIP 杯要求本科生开发一个能够区分原始图像和生成图像的系统。人们对这个主题的兴趣源于基于人工智能的视觉数据生成的令人难以置信的进步，以及允许合成高度逼真的图像和视频的工具。虽然这带来了大量新机会，但它也破坏了媒体内容的可信度，并助长了虚假信息在互联网上的传播。最近，人们强烈关注通过包含最新扩散模型技术的编辑软件生成极其逼真的图像。

DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion
Authors Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
基于自注意力的视觉转换器 ViT 已成为计算机视觉领域极具竞争力的架构。与卷积神经网络 CNN 不同，ViT 能够进行全局信息共享。随着 ViT 各种结构的发展，ViT 在许多视觉任务中越来越有优势。然而，自注意力的二次复杂性使得 ViT 的计算量很大，而且它们缺乏局部性和平移等方差的归纳偏差，需要比 CNN 更大的模型尺寸才能有效地学习视觉特征。在本文中，我们提出了一种轻量级且高效的视觉转换器模型，称为 DualToken ViT，它利用了 CNN 和 ViT 的优点。 DualToken ViT有效地融合了基于卷积的结构获得的带有局部信息的token和基于自注意力的结构获得的具有全局信息的token，以实现高效的注意力结构。此外，我们在各个阶段都使用位置感知的全局代币来丰富全局信息，这进一步增强了 DualToken ViT 的效果。位置感知全局标记还包含图像的位置信息，这使得我们的模型更适合视觉任务。我们在图像分类、对象检测和语义分割任务上进行了广泛的实验，以证明 DualToken ViT 的有效性。

Speeding up Resnet Architecture with Layers Targeted Low Rank Decomposition
Authors Walid Ahmed, Habib Hajimolahoseini, Austin Wen, Yang Liu
神经网络的压缩有助于加速网络的训练和推理。在本研究中，我们研究在网络层上使用低秩分解来应用压缩。我们的研究表明，为了获得加速，压缩方法应该了解底层硬件，因为应该进行分析来选择要压缩的层。我们的方法的优势通过压缩 ResNet50 和在完整 ImageNet ILSVRC2012 上进行训练的案例研究得到了证明。我们在两个不同的硬件系统Nvidia V100和华为Ascend910上进行了测试。

SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain Gap
Authors Daehee Kim, Yoonsik Kim, DongHyun Kim, Yumin Lim, Geewook Kim, Taeho Kil
受基于语言模型 LM 的预训练取得巨大成功的启发，最近视觉文档理解领域的研究探索了基于 LM 的预训练方法，用于对文档图像中的文本进行建模。其中，从图像中读取所有文本的预训练已显示出希望，但在应用于更广泛的领域（例如涉及视觉文档和场景文本图像的领域）时常常表现出不稳定甚至失败。这对于现实世界场景来说是一个很大的限制，在现实世界场景中，不同领域的文本图像输入的处理至关重要。在本文中，我们研究了更广泛领域中的有效预训练任务，并提出了一种称为 SCOB 的新颖预训练方法，该方法利用字符明智监督对比学习和在线文本渲染，通过弥合域差距来有效地预训练文档和场景文本域。此外，SCOB支持弱监督学习，显着降低注释成本。广泛的基准测试表明，SCOB 通常改进了普通的预训练方法，并实现了与最先进的方法相当的性能。我们的研究结果表明，SCOB 可以普遍有效地用于阅读类型预训练方法。

Spatially Guiding Unsupervised Semantic Segmentation Through Depth-Informed Feature Distillation and Sampling
Authors Leon Sick, Dominik Engel, Pedro Hermosilla, Timo Ropinski
传统上，训练神经网络来执行语义分割需要昂贵的人工注释。但最近，无监督学习领域的进步在这个问题上取得了重大进展，并朝着缩小与监督算法的差距的方向发展。为了实现这一目标，通过学习关联整个数据集中图像中的随机采样特征来提取语义知识。在这项工作中，我们在这些进步的基础上，通过使用深度信息将有关场景结构的信息合并到训练过程中。我们通过以下方式实现这一目标：1 通过将特征图与深度图进行空间关联来学习深度特征相关性，以引入有关场景结构的知识；2 通过利用基于场景深度信息的 3D 采样技术来实现最远点采样，以更有效地选择相关特征。场景。

Robotic Offline RL from Internet Videos via Value-Function Pre-Training
Authors Chethan Bhateja, Derek Guo, Dibya Ghosh, Anikait Singh, Manan Tomar, Quan Vuong, Yevgen Chebotar, Sergey Levine, Aviral Kumar
事实证明，互联网数据的预训练是许多现代机器学习系统广泛泛化的关键因素。如何才能在机器人强化学习 RL 中实现此类功能？离线 RL 方法从机器人经验数据集中学习，提供了一种将先前数据利用到机器人学习流程中的方法。然而，这些方法与视频数据（例如 Ego4D（可用于机器人技术的最大先验数据集））存在类型不匹配，因为视频仅提供观察体验，而没有 RL 方法所需的动作或奖励注释。在本文中，我们开发了一个系统，用于在机器人离线强化学习中利用大规模人类视频数据集，完全基于通过时间差异学习来学习价值函数。我们表明，与其他从视频数据学习的方法相比，视频数据集上的价值学习所学习的表示更有利于下游机器人离线强化学习。我们的系统称为 V PTR，它将视频数据预训练的优点与对不同机器人数据进行训练的机器人离线 RL 方法相结合，从而产生性能更好、稳健且广泛泛化的操作任务的价值函数和策略。在真实 WidowX 机器人上的几个操作任务中，我们的框架生成的策略比以前的方法大大改进。

Performance Analysis of UNet and Variants for Medical Image Segmentation
Authors Walid Ehab, Yongmin Li
医学成像通过提供内部结构和异常的无创可视化，实现早期疾病检测、准确诊断和治疗计划，在现代医疗保健中发挥着至关重要的作用。本研究旨在探索深度学习模型在医学图像分割中的应用，特别关注 UNet 架构及其变体。我们寻求评估这些模型在各种具有挑战性的医学图像分割任务中的性能，解决图像归一化、调整大小、架构选择、损失函数设计和超参数调整等问题。研究结果表明，标准 UNet 在扩展深层网络层时是一种熟练的医学图像分割模型，而 Res UNet 和 Attention Res UNet 架构则表现出更平滑的收敛和卓越的性能，特别是在处理精细图像细节时。该研究还通过仔细的预处理和损失函数定义解决了高级不平衡的挑战。

Point Cloud Network: An Order of Magnitude Improvement in Linear Layer Parameter Count
Authors Charles Hetterich
本文介绍了点云网络 PCN 架构，这是深度学习网络中线性层的一种新颖实现，并提供了经验证据来支持其在线性层中优于多层感知器 MLP。我们使用 MLP 和 PCN 架构训练了多个模型，包括原始的 AlexNet，以直接比较线性层 Krizhevsky 等人，2012。收集的主要结果是模型参数计数以及 CIFAR 10 和 CIFAR 100 数据集 Krizhevsky, 2009 上的前 1 个测试精度。 AlexNet PCN16（我们的 PCN 相当于 AlexNet）实现了与原始架构相当的功效测试精度，其线性层参数减少了 99.5。所有训练均在云端 RTX 4090 GPU 上完成，利用 pytorch 进行模型构建和训练。

PI-RADS v2 Compliant Automated Segmentation of Prostate Zones Using co-training Motivated Multi-task Dual-Path CNN
Authors Arnab Das, Suhita Ghosh, Sebastian Stober
磁共振成像 MRI 生成的详细图像为前列腺癌的诊断和治疗提供了至关重要的生命信息。为了提供复杂 MRI 图像的标准化采集、解释和使用，提出了 PI RADS v2 指南。遵循指南的自动分割有助于一致且精确的病变检测、分期和治疗。指南建议将前列腺分为四个区：PZ周边区、TZ过渡区、DPU远端前列腺尿道和AFS前纤维肌间质。并非每个区域都与其他区域共享边界并且存在于每个切片中。此外，单个模型捕获的表示可能不足以满足所有区域。这促使我们设计一个双分支卷积神经网络 CNN，其中每个分支分别捕获连接区域的表示。此外，来自不同分支的表示在训练的第二阶段彼此互补，通过无监督损失进行微调。损失会惩罚同一类别的两个分支的预测差异。我们还将多任务学习纳入我们的框架中，以进一步提高分割准确性。

On Data Fabrication in Collaborative Vehicular Perception: Attacks and Countermeasures
Authors Qingzhao Zhang, Shuowei Jin, Jiachen Sun, Xumiao Zhang, Ruiyang Zhu, Qi Alfred Chen, Z. Morley Mao
协作感知通过整合外部资源的数据极大地增强了联网自动驾驶汽车的感知能力，但也带来了潜在的安全风险。 CAV 的决策依赖于远程不受信任的数据，这使得它们容易受到协作感知系统中恶意参与者的攻击。然而，缺乏针对此类威胁的安全分析和对策。为了了解该漏洞的影响，我们提出了各种实时数据伪造攻击，其中攻击者向受害者提供精心设计的恶意数据，以扰乱他们的感知结果，从而导致硬刹车或增加碰撞风险。我们的攻击在高保真模拟场景中表现出超过 86 的高成功率，并且可以在现实世界的实验中实现。为了缓解该漏洞，我们提出了一种系统的异常检测方法，使良性车辆能够共同揭示恶意制造。

Inter-vendor harmonization of Computed Tomography (CT) reconstruction kernels using unpaired image translation
Authors Aravind R. Krishnan, Kaiwen Xu, Thomas Li, Chenyu Gao, Lucas W. Remedios, Praitayini Kanakaraj, Ho Hin Lee, Shunxing Bao, Kim L. Sandler, Fabien Maldonado, Ivana Isgum, Bennett A. Landman
计算机断层扫描CT生成中的重建核决定了图像的纹理。重建内核的一致性非常重要，因为底层 CT 纹理会影响定量图像分析期间的测量。协调，即内核转换最大限度地减少了由于重建内核不一致而导致的测量差异。现有方法研究单个或多个制造商 CT 扫描的协调性。然而，这些方法需要对空间和解剖学上对齐的硬和软重建内核进行配对扫描。此外，大量模型需要在制造商内的不同内核对上进行训练。在本研究中，我们采用不成对的图像翻译方法，通过构建多路径循环生成对抗网络 GAN 来研究不同制造商的重建内核之间的协调性。我们使用来自国家肺筛查试验数据集的西门子和 GE 供应商的硬和软重建内核。我们使用每个重建内核的 50 次扫描并训练多路径循环 GAN。为了评估协调对重建内核的影响，我们将西门子硬内核、GE 软内核和 GE 硬内核各 50 次扫描与参考西门子软内核 B30f 进行协调，并评估肺气肿百分比。我们通过考虑年龄、吸烟状况、性别和供应商来拟合线性模型，并对肺气肿评分进行方差方差分析。

Associative Transformer Is A Sparse Representation Learner
Authors Yuwei Sun, Hideya Ochiai, Zhirong Wu, Stephen Lin, Ryota Kanai
从传统 Transformer 模型中的整体成对注意力机制中脱颖而出，人们越来越有兴趣利用更符合生物学原理的稀疏交互。包括集合变压器和感知器在内的方法采用交叉注意力与潜在空间相结合，形成容量有限的注意力瓶颈。基于最近对全局工作空间理论和联想记忆的神经科学研究，我们提出了联想变压器 AiT。 AiT 诱导低阶显性记忆，既充当引导共享工作空间中瓶颈注意力的先验，又充当 Hopfield 网络联想记忆中的吸引子。通过联合端到端训练，这些先验自然地发展了模块专业化，每个模块都贡献了独特的归纳偏差，形成了注意力瓶颈。瓶颈可能会促进将信息写入内存的输入之间的竞争。我们证明 AiT 是一个稀疏表示学习器，通过输入数量和维度的复杂性不变的瓶颈学习不同的先验。

Cross-Modal Translation and Alignment for Survival Analysis
Authors Fengtao Zhou, Hao Chen
随着高通量测序技术的快速进步，生存分析的重点已从检查临床指标转向将基因组图谱与病理图像相结合。然而，现有的方法要么直接采用病理特征和基因组图谱的直接融合来进行生存预测，要么以基因组图谱为指导来整合病理图像的特征。前者会忽略内在的跨模式相关性。后者会丢弃与基因表达无关的病理信息。为了解决这些问题，我们提出了跨模态翻译和对齐 CMTA 框架，以探索内在的跨模态相关性并传输潜在的补充信息。具体来说，我们为多模态数据构建两个并行编码器解码器结构，以集成模内信息并生成跨模态表示。利用生成的跨模态表示来增强和重新校准模内表示可以显着提高其对综合生存分析的辨别力。为了探索内在的跨模态相关性，我们进一步设计了一个跨模态注意模块作为不同模态之间的信息桥梁，以执行跨模态交互并传递互补信息。

Automatic view plane prescription for cardiac magnetic resonance imaging via supervision by spatial relationship between views
Authors Dong Wei, Yawen Huang, Donghuan Lu, Yuexiang Li, Yefeng Zheng
背景心脏磁共振 CMR 成像采集的视图规划仍然是临床实践中的一项艰巨任务。目的现有的自动化方法要么依赖于临床常规中通常不会获取的额外体积图像，要么依赖于心脏结构标志的繁琐的手动注释。这项工作提出了一种临床兼容、无注释的系统，用于自动 CMR 视图规划。方法该系统挖掘空间关系，更具体地说，定位目标平面和源视图之间的相交线，并训练深度网络来回归由距相交线的距离定义的热图。交叉线是技术人员在图像采集时使用心脏标志指定的处方线，并从空间关系中回顾性地识别。由于空间关系自包含在正确存储的数据中，因此无需额外的手动注释。此外，在堆叠沙漏架构中利用源视图中预测的多个目标平面的相互作用来逐步改进回归。然后，提出多视图规划策略来聚合来自目标平面的所有源视图的预测热图的信息，以获得全局最佳处方，模仿熟练的人类处方者实践的类似策略。结果实验包括 181 项 CMR 检查。我们的系统产生的平均角度差和点到平面距离分别为 5.68 度和 3.12 毫米。

Multi-Label Noise Transition Matrix Estimation with Label Correlations: Theory and Algorithm
Authors Shikun Li, Xiaobo Xia, Hansong Zhang, Shiming Ge, Tongliang Liu
由于收集大规模准确标签带来的挑战，噪声多标签学习引起了越来越多的关注，这使得噪声标签成为更实用的替代方案。在噪声多类学习的推动下，转移矩阵的引入可以帮助对多标签噪声进行建模，并能够开发用于噪声多标签学习的统计一致算法。然而，估计多标签噪声转移矩阵仍然是一项具有挑战性的任务，因为噪声多类学习中的大多数现有估计器依赖于锚点和噪声类后验的准确拟合，这在噪声多标签学习中很难满足。在本文中，我们通过首先研究噪声多标签学习中类相关转换矩阵的可识别性来解决这个问题。基于可识别性结果，我们提出了一种新颖的估计器，它利用标签相关性，而不需要锚点或噪声类后验的精确拟合。具体来说，我们首先估计两个噪声标签的出现概率以捕获噪声标签相关性。随后，我们采用样本选择技术来提取暗示干净标签相关性的信息，然后使用这些信息来估计当某个干净标签出现时一个噪声标签的出现概率。通过利用这些出现概率所隐含的标签相关性的不匹配，我们证明了转移矩阵变得可识别，并且可以通过解决双线性分解问题来获得。理论上，我们为多标签转移矩阵估计器建立估计误差界，并为我们的统计一致算法导出泛化误差界。

eWand: A calibration framework for wide baseline frame-based and event-based camera systems
Authors Thomas Gossard, Andreas Ziegler, Levin Kolmar, Jonas Tebbe, Andreas Zell
准确的校准对于使用多个相机精确地三角测量物体的位置至关重要。然而，这也是一个耗时的过程，需要对摄像机的每次位移进行重复。标准方法是使用具有已知几何形状的印刷图案来估计相机的内在和外在参数。同样的想法可以应用于基于事件的相机，尽管它需要额外的工作。通过使用事件的帧重建，可以检测打印图案。闪烁图案也可以显示在屏幕上。然后，可以直接从事件中检测到模式。这种校准方法可以为基于帧和基于事件的相机提供准确的内在校准。然而，使用 2D 图案对于多相机外在校准有一些限制，因为相机具有高度不同的视角和宽基线。 2D 图案只能从一个方向检测，并且需要很大的尺寸以补偿其到相机的距离。这使得外部校准既耗时又麻烦。为了克服这些限制，我们提出了 eWand，这是一种在不透明球体内使用闪烁 LED 代替印刷或显示图案的新方法。

Vision Transformers for Computer Go
Authors Amani Sagri, Tristan Cazenave, J r me Arjonilla, Abdallah Saffidine
受 Transformer 在语言理解和图像分析等各个领域取得成功的推动，本次调查探讨了它们在围棋游戏中的应用。我们的研究尤其侧重于对 Vision 中 Transformer 的分析。通过对预测准确性、胜率、内存、速度、大小甚至学习率等众多要点的详细分析，我们已经能够强调 Transformer 在围棋游戏中可以发挥的重要作用。

On Sparse Modern Hopfield Model
Authors Jerry Yao Chieh Hu, Donglin Yang, Dennis Wu, Chenwei Xu, Bo Yu Chen, Han Liu
我们引入稀疏现代 Hopfield 模型作为现代 Hopfield 模型的稀疏扩展。与密集对应模型一样，稀疏现代 Hopfield 模型配备了一种记忆检索动力学，其一步近似对应于稀疏注意机制。从理论上讲，我们的关键贡献是使用稀疏熵正则化器的凸共轭对封闭形式稀疏 Hopfield 能量进行原理性推导。在此基础上，我们从稀疏能量函数中推导出稀疏记忆检索动力学，并表明其一步近似等效于稀疏结构化注意力。重要的是，我们提供了一个稀疏性相关的内存检索错误界限，它被证明比其密集的模拟更严格。因此，确定并讨论了稀疏性带来的好处的产生条件。此外，我们还表明，稀疏现代 Hopfield 模型保持了其密集对应模型的稳健理论特性，包括快速定点收敛和指数存储容量。

Auto-Lesion Segmentation with a Novel Intensity Dark Channel Prior for COVID-19 Detection
Authors Basma Jumaa Saleh, Zaid Omar, Vikrant Bhateja, Lila Iznita Izhar
在 COVID 19 大流行期间，计算机断层 CT 扫描等医学成像技术已证明可以有效对抗病毒的快速传播。因此，研究利用 CT 成像检测 COVID 19 的计算机模型至关重要。已经开发出一种利用放射组学特征的新型处理方法，以协助基于 CT 的 COVID 19 诊断。鉴于传统特征在区分肺部疾病的不同原因方面的特异性较低，本研究的目的是开发一种基于 CT 的方法区分 COVID 19 与其他肺部疾病的放射组学框架。该模型旨在重点概述 COVID 19 病变，因为传统特征在这方面往往缺乏特异性。该模型将图像分为三类：COVID 19、非 COVID 19 或正常。它采用增强自动分割原理，在定义的分析阈值范围内使用强度暗通道先验 IDCP 和深度神经网络 ALS IDCP DNN。利用包含 COVID 19、正常和非 COVID 19 类别的公开数据集来验证所提出模型的有效性。表现最好的分类模型是具有 50 层 Resnet 50 的残差神经网络，其平均准确度、精确度、召回率和 F1 分数分别为 98.8、99、98 和 98。这些结果证明了我们的模型能够准确分类 COVID 19 图像，这可以帮助放射科医生诊断疑似 COVID 19 患者。

Learning Actions and Control of Focus of Attention with a Log-Polar-like Sensor
Authors Robin G ransson, Volker Krueger
考虑到减少自主移动机器人图像处理时间的长期目标，我们在本文中探讨了使用对数极坐标图像数据和注视控制。注视控制不是在笛卡尔图像上完成的，而是在对数极坐标图像数据上完成的。为此，我们从 Atari 游戏的经典深度强化学习方法开始。我们使用 LSTM 网络扩展 A3C 深度 RL 方法，并学习玩三个 Atari 游戏的策略和注视控制的策略。

Improving Machine Learning Robustness via Adversarial Training
Authors Long Dang, Thushari Hapuarachchi, Kaiqi Xiong, Jing Lin
随着机器学习 ML 越来越多地用于解决现实世界应用中的各种任务，确保 ML 算法在设计时对任何潜在的最坏情况噪声、对抗性攻击和极不寻常的情况具有鲁棒性至关重要。研究 ML 鲁棒性将对 ML 算法的设计有很大帮助。在本文中，我们在集中式和分散式环境中使用对抗性训练来研究机器学习的鲁棒性，其中机器学习训练和测试是在一台或多台计算机上进行的。在集中式环境中，对快速梯度符号法和 DeepFool 生成的对抗样本进行分类时，我们分别实现了 65.41 和 83.0 的测试精度。与现有研究相比，这些结果表明 FGSM 提高了 18.41，DeepFool 提高了 47。在去中心化环境中，我们通过分别使用独立且同分布的 IID 和非 IID 数据的对抗性训练来研究联邦学习 FL 的鲁棒性，其中本研究中使用了 CIFAR 10。在 IID 数据案例中，我们的实验结果表明，我们可以实现如此稳健的精度，可以与集中式环境中获得的精度相媲美。此外，在非 IID 数据情况下，与 IID 数据情况相比，自然精度从 66.23 下降到 57.82，并且在 CW 和投影梯度下降 PGD 攻击中鲁棒精度分别下降 25 和 23.4。

Interpretable 3D Multi-Modal Residual Convolutional Neural Network for Mild Traumatic Brain Injury Diagnosis
Authors Hanem Ellethy, Viktor Vegh, Shekhar S. Chandra
轻度创伤性脑损伤 mTBI 因其高患病率和潜在的长期健康影响而成为一项重大的公共卫生挑战。尽管计算机断层扫描 CT 是 mTBI 的标准诊断工具，但尽管有症状证据，但它通常对 mTBI 患者产生正常结果。这一事实强调了准确诊断的复杂性。在这项研究中，我们引入了一种可解释的 3D 多模态残差卷积神经网络 MRCNN，用于通过遮挡敏感度图 OSM 增强的 mTBI 诊断模型。我们的 MRCNN 模型在 mTBI 诊断中表现出良好的性能，经五折交叉验证过程验证，平均准确度为 82.4，灵敏度为 82.6，特异性为 81.6。值得注意的是，与基于 CT 的残差卷积神经网络 RCNN 模型相比，MRCNN 的特异性提高了 4.4，准确度提高了 9.0。我们证明，与 Grad CAM 方法相比，OSM 可以提供卓越的数据驱动的 CT 图像洞察。

Invariant Learning via Probability of Sufficient and Necessary Causes
Authors Mengyue Yang, Zhen Fang, Yonggang Zhang, Yali Du, Furui Liu, Jean Francois Ton, Jun Wang
分布外的 OOD 泛化对于野外学习模型是必不可少的，其中测试分布通常是未知的并且与训练不同。最近源自因果关系的方法在实现 OOD 泛化方面显示出了巨大的潜力。然而，现有方法主要关注原因的不变性，而很大程度上忽视了文本充分性和文本必要性条件的性质。即，必要但不充分的原因特征对于分布偏移是不变的，但它可能不具有所需的精度。相比之下，充分但不必要的原因特征往往能够很好地拟合特定数据，但可能存在适应新领域的风险。为了捕获充分必要原因的信息，我们采用了一个经典概念，充分必要原因概率PNS，它表示一个原因是否是充分必要原因的概率。为了将 PNS 与 OOD 泛化联系起来，我们提出了 PNS 风险并制定了一种算法来学习具有高 PNS 值的表示。我们从理论上分析并证明了 PNS 风险的普遍性。合成基准和现实基准的实验证明了所提出方法的有效性。

Multimodal Deep Learning for Scientific Imaging Interpretation
Authors Abdulelah S. Alshehri, Franklin L. Lee, Shihu Wang
在科学成像领域，解释视觉数据通常需要人类专业知识和对主题材料的深入理解的复杂结合。这项研究提出了一种新颖的方法，可以在语言上模拟并随后评估与扫描电子显微镜 SEM 图像（特别是玻璃材料）的类人交互。利用多模式深度学习框架，我们的方法从同行评审文章中收集的文本和视觉数据中提取见解，并通过 GPT 4 的精细数据合成和评估功能进一步增强。尽管存在诸如细致入微的解释和专业数据集的有限可用性等固有的挑战，但我们的模型 GlassLLaVA 在制定准确的解释、识别关键特征以及检测以前未见过的 SEM 图像中的缺陷方面表现出色。此外，我们引入了适用于一系列科学成像应用的多功能评估指标，可以根据基于研究的答案进行基准测试。受益于当代大型语言模型的稳健性，我们的模型巧妙地与研究论文的见解相一致。

Active Learning for Multilingual Fingerspelling Corpora
Authors Shuai Wang, Eric Nalisnick
我们应用主动学习来帮助解决手语数据稀缺问题。特别是，我们对预训练的效果进行了新颖的分析。由于许多手语都是法语手语的语言后代，因此它们共享手部配置，预训练有望利用这一点。我们在美国、中国、德国和爱尔兰的手指拼写语料库上检验了这一假设。

POLAR3D: Augmenting NASA's POLAR Dataset for Data-Driven Lunar Perception and Rover Simulation
Authors Bo Hsun Chen, Peter Negrut, Thomas Liang, Nevindu Batagoda, Harry Zhang, Dan Negrut
我们报告了 POLAR3D 的一项工作，这是一组数字资产，可增强 NASA 生成的立体图像 POLAR 数据集，以模拟月球照明条件。我们的贡献是双重的。首先，我们对 POLAR 数据集中的每张照片进行了注释，为岩石及其阴影提供了大约 23000 个标签。其次，我们对 POLAR 数据集中可用的几个月球地形场景进行了数字化。具体来说，通过利用月球照片和 POLAR 的 LiDAR 点云，我们为所有可识别资产构建了详细的 obj 文件。 POLAR3D 是一组数字资产，由与月球地形场景的数字孪生相关的岩石阴影标签和 obj 文件组成。这个新数据集可用于训练月球探索的感知算法，并合成原始 POLAR 集合之外的真实感图像。同样，目标资产可以集成到模拟环境中，以促进 POLAR 场景的数字孪生中的真实流动站操作。

FUTURE-AI: International consensus guideline for trustworthy and deployable artificial intelligence in healthcare
Authors Karim Lekadir, Aasa Feragen, Abdul Joseph Fofanah, Alejandro F Frangi, Alena Buyx, Anais Emelie, Andrea Lara, Antonio R Porras, An Wen Chan, Arcadi Navarro, Ben Glocker, Benard O Botwe, Bishesh Khanal, Brigit Beger, Carol C Wu, Celia Cintas, Curtis P Langlotz, Daniel Rueckert, Deogratias Mzurikwao, Dimitrios I Fotiadis, Doszhan Zhussupov, Enzo Ferrante, Erik Meijering, Eva Weicken, Fabio A Gonz lez, Folkert W Asselbergs, Fred Prior, Gabriel P Krestin, Gary Collins, Geletaw S Tegenaw, Georgios Kaissis, Gianluca Misuraca, Gianna Tsakou, Girish Dwivedi, Haridimos Kondylakis, Harsha Jayakody, Henry C Woodruf, Hugo JWL Aerts, Ian Walsh, Ioanna Chouvarda, Ir ne Buvat, Islem Rekik, James Duncan, Jayashree Kalpathy Cramer, Jihad Zahir, Jinah Park, John Mongan, Judy W Gichoya, Julia A Schnabel, Kaisar Kushibar, Katrine Riklund, Kensaku Mori, Kostas Marias, Lameck M Amugongo, Lauren A Fromont, Lena Maier Hein, Leonor Cerd Alberich, Leticia Rittner, Lighton Phiri, Linda Marrakchi Kacem, Llu s Donoso Bach, Luis Mart Bonmat , M Jorge Cardoso, Maciej Bobowicz, Mahsa Shabani, Manolis Tsiknakis, Maria A Zuluaga, Maria Bielikova, Marie Christine Fritzsche, Marius George Linguraru, Markus Wenzel, Marleen De Bruijne, Martin G Tolsgaard, Marzyeh Ghassemi, Md Ashrafuzzaman, Melanie Goisauf, Mohammad Yaqub, Mohammed Ammar, M nica Cano Abad a, Mukhtar M E Mahmoud, Mustafa Elattar, Nicola Rieke, Nikolaos Papanikolaou, Noussair Lazrak, Oliver D az, Olivier Salvado, Oriol Pujol, Ousmane Sall, Pamela Guevara, Peter Gordebeke, Philippe Lambin, Pieta Brown, Purang Abolmaesumi, Qi Dou, Qinghua Lu, Richard Osuala, Rose Nakasi, S Kevin Zhou, Sandy Napel, Sara Colantonio , Shadi Albarqouni, Smriti Joshi, Stacy Carter, Stefan Klein, Steffen E Petersen, Susanna Auss , Suyash Awate, Tammy Riklin Raviv, Tessa Cook, Tinashe E M Mutsvangwa, Wendy A Rogers, Wiro J Niessen, X nia Puig Bosch, Yi Zeng, Yunusa G Mohammed, Yves Saint James Aquino, Zohaib Salahuddin, Martijn P A Starmans et al. 18 additional authors not shown You must enable JavaScript to view entire author list.
尽管人工智能在医学和医疗保健方面取得了重大进展，但人工智能技术在现实世界临床实践中的部署和采用仍然有限。近年来，人们对医疗人工智能相关的技术、临床、伦理和法律风险提出了担忧。为了提高现实世界的采用率，医疗人工智能工具必须得到患者、临床医生、卫生组织和当局的信任和接受。这项工作将未来人工智能指南描述为第一个国际共识框架，用于指导医疗保健领域值得信赖的人工智能工具的开发和部署。 FUTURE AI联盟成立于2021年，目前由来自51个国家、代表各大洲的118名跨学科专家组成，包括人工智能科学家、临床医生、伦理学家和社会科学家。在两年的时间里，该联盟通过深入的文献综述、修改后的德尔菲调查和在线共识会议等迭代过程，定义了值得信赖的人工智能的指导原则和最佳实践。 FUTURE AI框架是基于医疗保健领域值得信赖的人工智能的6个指导原则而建立的，即公平性、普遍性、可追溯性、可用性、稳健性和可解释性。经过协商一致，确定了 28 项最佳实践，涉及技术、临床、法律和社会道德层面。这些建议涵盖了医疗人工智能的整个生命周期，从设计、开发和验证到监管、部署和监控。 FUTURE AI 是一项风险知情、无假设的指南，它提供了一种结构化方法来构建在现实世界实践中值得信赖、部署和采用的医疗人工智能工具。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com