【AI视野·今日CV 计算机视觉论文速览第247期】Fri, 22 Apr 2022_cnll: a semi-supervised approach for continual noi-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/124402641

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 22 Apr 2022
Totally 74 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning Future Object Prediction with a Spatiotemporal Detection Transformer
Authors Adam Tonderski, Joakim Johnander, Christoffer Petersson, Kalle str m
我们探索未来对象预测是一个具有挑战性的问题，其中要预测未来视频帧中可见的所有对象。我们建议通过训练检测转换器直接输出未来对象来端到端解决这个问题。为了对未来做出准确的预测，有必要捕捉场景中的动态，包括其他物体和自我相机的动态。我们以两种方式扩展现有的检测转换器来捕捉场景动态。首先，我们尝试了三种不同的机制，使模型能够在时空上处理多个帧。其次，我们通过交叉注意力将自我运动信息提供给模型。我们表明，这两个线索都大大提高了未来的对象预测性能。

SelfD: Self-Learning Large-Scale Driving Policies From the Web
Authors Jimuyang Zhang, Ruizhao Zhu, Eshed Ohn Bar
有效利用互联网上免费提供的大量以自我为中心的导航数据可以推进通用智能系统，即跨视角、平台、环境条件、场景和地理位置进行稳健扩展。然而，很难直接利用如此大量的未标记和高度多样化的数据来完成复杂的 3D 推理和规划任务。因此，研究人员主要专注于将其用于不考虑最终导航目标的各种辅助像素和图像级计算机视觉任务。在这项工作中，我们介绍了 SelfD，这是一个通过利用大量在线单目图像来学习可扩展驾驶的框架。我们的关键思想是在从未标记数据中学习模仿代理时利用迭代半监督训练。为了处理不受约束的视点、场景和相机参数，我们训练了一个基于图像的模型，该模型直接学习在鸟瞰 BEV 空间中进行规划。接下来，我们使用未标记的数据通过自我训练来增强初始训练模型的决策知识和鲁棒性。特别是，我们提出了一个伪标记步骤，该步骤可以通过基于假设规划的数据增强来充分利用高度多样化的演示数据。我们使用大量公开可用的 YouTube 视频数据集来训练 SelfD，并全面分析其在具有挑战性的导航场景中的泛化优势。

Feature anomaly detection system (FADS) for intelligent manufacturing
Authors Anthony Garland, Kevin Potter, Matt Smith
异常检测对于工业自动化和零件质量保证很重要，尽管举几个例子，人类可以很容易地检测到组件中的异常，但设计一个能够以人类或超过人类能力执行的通用自动化系统仍然是一个挑战。在这项工作中，我们提出了一种简单的新异常检测算法，称为基于 FADS 特征的异常检测系统，它利用预训练的卷积神经网络 CNN 通过观察卷积滤波器的激活来生成标称输入的统计模型。在推理期间，系统将新输入的卷积滤波器激活与统计模型进行比较，并标记超出预期值范围的激活，因此可能是异常。通过使用预训练网络，FADS 在异常检测方面表现出与其他机器学习方法相似或更好的出色性能，同时 FADS 不需要调整 CNN 权重。我们通过检测增材制造晶格的自定义数据集上的工艺参数变化来展示 FADS 能力。 FADS 定位算法表明，表面上可见的纹理差异可用于检测工艺参数的变化。

Unsupervised Human Action Recognition with Skeletal Graph Laplacian and Self-Supervised Viewpoints Invariance
Authors Giancarlo Paoletti, Jacopo Cavazza, Cigdem Beyan, Alessio Del Bue
本文针对基于骨架的无监督人体动作识别问题提出了一种新颖的端到端方法。我们提出了一种带有卷积自动编码器的新架构，该架构使用图拉普拉斯正则化来对动作的时间动态中的骨骼几何进行建模。我们的方法通过包含一个自监督梯度反向层来确保跨摄像机视图的泛化，从而对视点变化具有鲁棒性。所提出的方法在 NTU 60 和 NTU 120 大规模数据集上进行了验证，在这些数据集上，它在跨主题、跨视图和跨设置协议方面优于所有先前基于无监督骨架的方法。尽管是无监督的，但我们的可学习表示甚至允许我们的方法超越一些基于监督骨架的动作识别方法。

Share With Thy Neighbors: Single-View Reconstruction by Cross-Instance Consistency
Authors Tom Monnier, Matthew Fisher, Alexei A. Efros, Mathieu Aubry
单视图重建的方法通常依赖于视点注释、轮廓、没有背景、同一实例的多个视图、模板形状或对称性。我们通过明确利用不同对象实例的图像之间的一致性来避免所有这些监督和假设。因此，我们的方法可以从描绘相同对象类别的大量未标记图像中学习。我们的主要贡献是利用跨实例一致性 i 渐进式调节的两种方法，一种以课程学习方式逐渐将模型从类别专业化到实例的训练策略 ii 交换重建，一种在具有相似形状或纹理的实例之间执行一致性的损失。我们的方法成功的关键还在于我们的结构化自动编码架构，将图像分解为明确的形状、纹理、姿势和背景、差分渲染的适应公式，以及在 3D 和姿势学习之间交替的新优化方案。我们比较了我们的方法 UNICORN，在多样化的合成 ShapeNet 数据集（需要多个视图作为监督的方法的经典基准）和标准真实图像基准 Pascal3D Car，CUB 200 上，大多数方法都需要已知模板和轮廓注释。

An Examination of Bias of Facial Analysis based BMI Prediction Models
Authors Hera Siddiqui, Ajita Rattani, Karl Ricanek, Twyla Hill
肥胖是当今世界面临的最重要的公共卫生问题之一。最近的趋势是开发干预工具，使用面部图像预测 BMI，用于体重监测和管理以对抗肥胖。这些研究中的大多数使用了主要由高加索人组成的 BMI 注释面部图像数据集。对基于面部的性别、年龄分类和面部识别系统的偏见评估的研究表明，这些技术对女性、深色皮肤的人和老年人的表现不佳。直到现在还没有研究基于面部分析的 BMI 预测工具的偏差。本文评估了基于面部分析的 BMI 预测模型在白种人和非洲裔美国男性和女性中的偏差。对修改后的 MORPH II 数据集的性别、种族和 BMI 平衡版本的实验调查表明，BMI 预测的错误率在黑人男性中最低，在白人女性中最高。此外，与体重相关的心理学相关面部特征表明，随着 BMI 的增加，面部区域的变化对于黑人男性更为突出，而对于白人女性则最少。

HEATGait: Hop-Extracted Adjacency Technique in Graph Convolution based Gait Recognition
Authors Md. Bakhtiar Hasan, Tasnim Ahmed, Md. Hasanul Kabir
使用步态的生物特征认证由于其不引人注目的性质而成为一个有前途的领域。基于模型的步态识别技术中的最新方法利用时空图来优雅地提取步态特征。然而，现有的方法通常依赖于多尺度算子来提取关节之间的长期关系，从而导致权重偏差。在本文中，我们提出了 HEATGait，这是一种步态识别系统，它通过有效的跳数提取技术改进了现有的多尺度图卷积，以缓解该问题。

Planes vs. Chairs: Category-guided 3D shape learning without any 3D cues
Authors Zixuan Huang, Stefan Stojanov, Anh Thai, Varun Jampani, James M. Rehg
我们提出了一种新颖的 3D 形状重建方法，该方法学习从单个 RGB 图像中预测隐式 3D 形状表示。我们的方法使用一组没有视点注释的多个对象类别的单视图图像，迫使模型在没有 3D 监督的情况下跨多个对象类别进行学习。为了以这种最小的监督促进学习，我们使用类别标签通过一种新颖的分类度量学习方法来指导形状学习。我们还利用对抗性和视点正则化技术来进一步解开视点和形状的影响。我们使用没有任何 3D 线索的单一模型获得了 50 多个类别的大规模单视点形状预测的第一个结果。我们也是第一个在单视图监督 3D 形状重建中检查和量化类信息的好处的人。

SmartPortraits: Depth Powered Handheld Smartphone Dataset of Human Portraits for State Estimation, Reconstruction and Synthesis
Authors Anastasiia Kornilova, Marsel Faizullin, Konstantin Pakulev, Andrey Sadkov, Denis Kukushkin, Azat Akhmetyanov, Timur Akhtyamov, Hekmat Taherinejad, Gonzalo Ferrer
我们使用手持智能手机和外部高质量深度相机，提供了一个包含 1000 个在真实和不受控制的条件下记录的人类肖像视频序列的数据集。收集的数据集包含 200 人以不同姿势和位置捕获的数据，其主要目的是弥补从智能手机获得的原始测量结果与下游应用程序（例如状态估计、3D 重建、视图合成等）之间的差距。数据中使用的传感器该系列包括智能手机的摄像头和惯性测量单元 IMU，以及以亚毫秒精度同步到智能手机系统的外部 Azure Kinect DK 深度摄像头软件。在录制过程中，智能手机闪光灯用于提供周期性的二级闪电源。提供最前面的人的准确遮罩以及它对相机对准精度的影响。出于评估目的，我们使用运动捕捉系统比较了多种最先进的相机对齐方法。

A Multi-Person Video Dataset Annotation Method of Spatio-Temporally Actions
Authors Fan Yang
时空动作检测是视频理解中一个重要且具有挑战性的问题。但是，现有的大规模时空动作数据集在特定领域的应用有限，并且目前还没有公开的时空动作数据集制作工具，研究人员定制时空动作数据集需要花费大量的时间和精力。，因此我们提出了一种多人视频数据集时空动作的注释方法。首先，我们使用ffmpeg对视频进行裁剪和帧视频，然后使用yolov5检测视频帧中的人，然后使用深度排序来检测ID视频帧中的人。

WebFace260M: A Benchmark for Million-Scale Deep Face Recognition
Authors Zheng Zhu, Guan Huang, Jiankang Deng, Yun Ye, Junjie Huang, Xinze Chen, Jiagang Zhu, Tian Yang, Dalong Du, Jiwen Lu, Jie Zhou
人脸基准使研究界能够训练和评估高性能的人脸识别系统。在本文中，我们提供了一个新的百万级识别基准，包含未经处理的 4M 身份 260M 人脸 WebFace260M 和已清理的 2M 身份 42M 人脸 WebFace42M 训练数据，以及精心设计的时间受限评估协议。首先，我们收集了 4M 的名单并从 Internet 下载了 260M 的面孔。然后，设计了一种利用自训练 CAST 自动清洗的管道来净化巨大的 WebFace260M，它是高效且可扩展的。据我们所知，清理后的 WebFace42M 是最大的公共人脸识别训练集，我们希望缩小学术界和工业界之间的数据差距。参考实际部署，构建了推理时间约束下的人脸识别FRUITS协议和一个新的属性丰富的测试集。此外，我们收集了一个大规模的蒙面人脸子集，用于 COVID 19 下的生物特征评估。为了全面评估人脸匹配器，分别在标准、蒙面和无偏设置下执行三个识别任务。借助此基准，我们深入研究百万级人脸识别问题。开发了一个分布式框架来有效地训练人脸识别模型而不篡改性能。在 WebFace42M 的支持下，我们在具有挑战性的 IJB C 集上降低了 40 个失败率，并在 NIST FRVT 的 430 个条目中排名第三。与公共训练集相比，即使是 10 个数据 WebFace4M 也显示出优越的性能。此外，在 FRUITS 100 500 1000 毫秒协议下建立了全面的基线。提议的基准在标准、蒙面和无偏见的人脸识别场景中显示出巨大的潜力。

A case for using rotation invariant features in state of the art feature matchers
Authors Georg B kman, Fredrik Kahl
本文的目的是证明，通过简单地将主干 CNN 替换为与平移和图像旋转等变的可操纵 CNN，可以使最先进的特征匹配器 LoFTR 对旋转更加鲁棒。

Toward Fast, Flexible, and Robust Low-Light Image Enhancement
Authors Long Ma, Tengyu Ma, Risheng Liu, Xin Fan, Zhongxuan Luo
现有的弱光图像增强技术大多不仅难以处理视觉质量和计算效率，而且在未知的复杂场景中通常无效。在本文中，我们开发了一种新的自校准照明 SCI 学习框架，用于在现实世界的低光场景中快速、灵活和稳健地增亮图像。具体来说，我们建立了一个具有权重共享的级联光照学习过程来处理这个任务。考虑到级联模式的计算负担，我们构建了自校准模块，该模块实现了每个阶段结果之间的收敛，产生了仅使用单个基本块进行推理但在以前的工作中尚未开发的增益，这大大减少了计算量成本。然后，我们定义了无监督训练损失，以提升可以适应一般场景的模型能力。此外，我们进行了全面探索，以挖掘现有工作中缺乏的 SCI 固有属性，包括在不同简单操作的设置下获得稳定的性能的操作不敏感适应性，以及模型无关的通用性可以应用于基于光照的现有工作以提高性能。最后，大量的实验和消融研究充分表明了我们在质量和效率方面的优势。微光人脸检测和夜间语义分割的应用充分揭示了 SCI 的潜在实用价值。

OSSO: Obtaining Skeletal Shape from Outside
Authors Marilyn Keller, Silvia Zuffi, Michael J. Black, Sergi Pujades
我们解决了从身体的 3D 表面以任意姿势推断人的解剖骨架的问题，即我们从外部皮肤预测内部骨骼。这在医学和生物力学中有许多应用。现有的最先进的生物力学骨架很详细，但不容易推广到新主题。此外，预测骨骼的计算机视觉和图形方法通常是启发式的，不是从数据中学习的，不利用完整的 3D 身体表面，也没有根据实际情况进行验证。据我们所知，我们的系统，称为 OSSO 从外部获取骨骼形状，是第一个从真实数据中学习从 3D 身体表面到内部骨骼的映射的系统。我们使用 1000 名男性和 1000 名女性双能 X 射线吸收仪 DXA 扫描来做到这一点。为此，我们拟合了一个参数化的 3D 身体形状模型 STAR 来捕捉身体表面，以及一个新颖的基于部分的 3D 骨架模型来捕捉骨骼。这提供了内部外部训练对。我们在姿势归一化空间中使用 PCA 对完整骨骼的统计变化进行建模。然后，我们训练一个从身体形状参数到骨架形状参数的回归器，并细化骨架以满足对物理合理性的约束。给定任意 3D 身体形状和姿势，OSSO 会预测内部的真实骨架。与以前的工作相比，我们在保留的 DXA 扫描上定量评估了骨架形状的准确性，优于最先进的技术。我们还展示了来自各种具有挑战性的 3D 身体的 3D 骨架预测。

Deep Model-Based Super-Resolution with Non-uniform Blur
Authors Charles Laroche, Andr s Almansa, Matias Tassano
我们提出了一种用于具有非均匀模糊的超分辨率的最先进方法。单图像超分辨率方法寻求从模糊、二次采样和噪声测量中恢复高分辨率图像。尽管它们的性能令人印象深刻，但现有技术通常假设一个统一的模糊内核。因此，这些技术不能很好地推广到更一般的非均匀模糊情况。相反，在本文中，我们解决了空间变化模糊的更现实和计算上具有挑战性的情况。为此，我们首先提出了一种基于线性化 ADMM 拆分技术的快速深度即插即用算法，该算法可以解决空间变化模糊的超分辨率问题。其次，我们将我们的迭代算法展开到一个单一的网络中，并端到端地对其进行训练。通过这种方式，我们克服了手动调整优化方案中涉及的参数的复杂性。

Working memory inspired hierarchical video decomposition with transformative representations
Authors Binjie Qin, Haohao Mao, Ruipeng Zhang, Yueqi Zhu, Song Ding, Xu Chen
视频分解对于从计算机视觉、机器学习和医学成像中的复杂背景中提取移动的前景对象非常重要，例如，从 X 射线冠状动脉造影 XCA 的复杂和嘈杂的背景中提取充满对比剂的移动血管。然而，动态背景、重叠异构环境和复杂噪声带来的挑战仍然存在于视频分解中。为了解决这些问题，本研究首次在视频分解任务中引入灵活的视觉工作记忆模型，以提供可解释和高性能的分层深度架构，从视觉和认知神经科学的角度整合感觉层和控制层之间的转换表示。具体来说，作为结构正则化传感器层的稳健 PCA 展开网络将 XCA 分解为稀疏的低秩结构化表示，以将移动的对比度填充血管与嘈杂和复杂的背景分开。然后，带有反投影模块的补丁循环卷积 LSTM 网络在工作记忆中体现控制层的非结构化随机表示，将时空分解的非局部补丁循环投影到正交子空间中，用于异构血管检索和干扰抑制。这种视频分解深度架构有效地恢复了强度的异构分布和运动物体的几何形状，以对抗复杂的背景干扰。

GAF-NAU: Gramian Angular Field encoded Neighborhood Attention U-Net for Pixel-Wise Hyperspectral Image Classification
Authors Sidike Paheding, Abel A. Reyes, Anush Kasaragod, Thomas Oommen
高光谱图像 HSI 分类是高光谱社区中最活跃的研究领域，因为 HSI 中包含的丰富光谱信息可以极大地帮助识别感兴趣的物体。然而，材料与相应光谱分布之间固有的非线性给 HSI 分类带来了类间相似性和类内变异性的两大挑战。许多先进的深度学习方法试图从基于区域补丁的方法的角度解决这些问题，而不是基于像素的替代方法。然而，基于补丁的方法假设固定空间窗口中目标像素的邻域像素属于同一类。而且这个假设并不总是正确的。为了解决这个问题，我们在此提出了一种新的深度学习架构，即 Gramian Angular Field 编码的 Neighborhood Attention U Net GAF NAU ，用于基于像素的 HSI 分类。所提出的方法不需要以原始目标像素为中心的区域或补丁来执行基于 2D CNN 的分类，相反，我们的方法使用 Gramian Angular Field GAF 将 HSI 中的 1D 像素向量转换为 2D 角度特征空间，然后将其嵌入到新的邻域注意力网络抑制不相关的角度特征，同时强调对 HSI 分类任务有用的相关特征。

R2-Trans:Fine-Grained Visual Categorization with Redundancy Reduction
Authors Yu Wang, Shuo Ye, Shujian Yu, Xinge You
细粒度视觉分类 FGVC 旨在区分相似的子类别，其主要挑战是大的类内多样性和细微的类间差异。现有的 FGVC 方法通常选择训练模型找到的判别区域，这容易忽略其他潜在的判别信息。另一方面，ViT 中图像块序列之间的大量交互使得生成的类令牌包含大量冗余信息，这也可能影响 FGVC 性能。在本文中，我们提出了一种 FGVC 的新方法，该方法可以同时利用环境线索中部分但足够的判别信息，并针对目标压缩类别标记中的冗余信息。具体来说，我们的模型计算批量中高权重区域的比例，自适应调整掩蔽阈值，并在输入空间中实现背景信息的适度提取。此外，我们还使用信息瓶颈 IB 方法来指导我们的网络在特征空间中学习最少的足够表示。

Learn from Unpaired Data for Image Restoration: A Variational Bayes Approach
Authors Dihan Zheng, Xiaowen Zhang, Kaisheng Ma, Chenglong Bao
收集成对的训练数据在实践中很困难，但不成对的样本广泛存在。当前的方法旨在通过探索损坏数据和干净数据之间的关系，从未配对的样本中生成合成的训练数据。这项工作提出了 LUD VAE，这是一种深度生成方法，用于从边缘分布采样的数据中学习联合概率密度函数。我们的方法基于精心设计的概率图形模型，其中干净和损坏的数据域是条件独立的。使用变分推理，我们最大化证据下界 ELBO 来估计联合概率密度函数。此外，我们证明了在推理不变假设下，ELBO 在没有配对样本的情况下是可计算的。该属性为我们在未配对环境中的方法提供了数学原理。最后，我们将我们的方法应用于现实世界的图像去噪和超分辨率任务，并使用 LUD VAE 生成的合成数据训练模型。

Absolute Wrong Makes Better: Boosting Weakly Supervised Object Detection via Negative Deterministic Information
Authors Guanchun Wang, Xiangrong Zhang, Zelin Peng, Xu Tang, Huiyu Zhou, Licheng Jiao
弱监督目标检测 WSOD 是一项具有挑战性的任务，其中图像级标签（例如，整个图像中实例的类别）用于训练目标检测器。许多现有方法遵循标准的多实例学习 MIL 范式，并取得了可喜的性能。然而，缺乏确定性信息会导致部分控制和缺失实例。为了解决这些问题，本文着重于识别和充分利用 WSOD 中的确定性信息。我们发现负面实例，即绝对错误的实例，在之前的大多数研究中被忽略，通常包含有价值的确定性信息。基于这一观察，我们在此提出了一种基于负确定性信息 NDI 的 WSOD 改进方法，即 NDI WSOD。具体来说，我们的方法包括 NDI 收集和利用两个阶段。在收集阶段，我们设计了几个流程来从在线负面实例中识别和提取 NDI。在开发阶段，我们利用提取的 NDI 构建了一种新颖的负对比学习机制和负引导实例选择策略，分别处理部分控制和缺失实例的问题。

Implicit Shape Completion via Adversarial Shape Priors
Authors Abhishek Saroha, Marvin Eisenberger, Tarun Yenamandra, Daniel Cremers
我们提出了一种新的神经隐式形状方法来完成部分点云。为此，我们将条件 Deep SDF 架构与学习的对抗性形状先验相结合。更具体地说，我们的网络将部分输入转换为全局潜在代码，然后通过隐式的有符号距离生成器恢复完整的几何图形。此外，我们训练了一个 PointNet 鉴别器，它促使生成器产生合理的、全局一致的重建。这样，我们有效地解耦了预测形状的挑战，这些挑战既是现实的，即模仿训练集的姿势分布，又是准确的，因为它们复制了部分输入观察。在我们的实验中，我们展示了完成部分形状的最先进性能，同时考虑到人造物体，例如飞机、椅子……以及可变形形状类别的人体。

A New Dataset and Transformer for Stereoscopic Video Super-Resolution
Authors Hassan Imani, Md Baharul Islam, Lai Kuan Wong
立体视频超分辨率 SVSR 旨在通过重构高分辨率视频来提高低分辨率视频的空间分辨率。 SVSR 的主要挑战是保持立体一致性和时间一致性，否则观众可能会感到 3D 疲劳。立体图像超分辨率有几项著名的工作，但对立体视频超分辨率的研究却很少。在本文中，我们提出了一种新颖的基于 Transformer 的 SVSR 模型，即 Trans SVSR。 Trans SVSR 包含两个关键的新颖组件，一个时空卷积自注意力层和一个基于光流的前馈层，该层发现不同视频帧之间的相关性并对齐特征。使用交叉视图信息来考虑显着差异的视差注意机制 PAM 用于融合立体视图。由于缺乏适合 SVSR 任务的基准数据集，我们收集了一个新的立体视频数据集 SVSR Set，其中包含使用专业立体相机拍摄的 71 个全高清高清立体视频。对收集的数据集以及其他两个数据集进行的广泛实验表明，与最先进的方法相比，Trans SVSR 可以实现具有竞争力的性能。

Is Neuron Coverage Needed to Make Person Detection More Robust?
Authors Svetlana Pavlitskaya, iyar Y km , J. Marius Z llner
深度神经网络 DNN 在自动驾驶等安全和安保关键领域的使用越来越多，这提高了对其系统测试的需求。覆盖引导测试 CGT 是一种根据预定义的覆盖度量应用突变或模糊测试来查找导致错误行为的输入的方法。随着神经元覆盖度量的引入，CGT 最近也被应用于 DNN。在这项工作中，我们将 CGT 应用于拥挤场景中的人员检测任务。提议的管道使用 YOLOv3 进行人员检测，包括通过采样和变异发现 DNN 错误，以及随后在更新的训练集上重新训练 DNN。作为一个错误，与干净的输入相比，我们需要一个变异的图像来导致性能显着下降。根据 CGT，我们还考虑了在错误定义中增加覆盖率的附加要求。为了探索几种类型的鲁棒性，我们的方法包括自然图像转换、损坏和由代达罗斯攻击生成的对抗性示例。所提出的框架已经发现了数千个不正确的 DNN 行为案例。对于不同的鲁棒性类型，再训练模型的 mAP 性能的相对变化平均达到 26.21 和 64.24 之间。

Understanding the Domain Gap in LiDAR Object Detection Networks
Authors Jasmine Richter, Florian Faion, Di Feng, Paul Benedikt Becker, Piotr Sielecki, Claudius Glaeser
为了使自动驾驶成为现实，人工神经网络必须在开放世界中可靠地工作。然而，开放世界广阔且不断变化，因此收集和注释准确代表该领域的训练数据集在技术上是不可行的。因此，必须了解训练数据集和开放世界之间的领域差距。在这项工作中，我们研究了物体检测网络中高分辨率和低分辨率 LiDAR 传感器之间的域差距。使用一个独特的数据集，这使我们能够独立于其他影响研究传感器分辨率域间隙，我们展示了两个不同的域间隙，一个推理域间隙和一个训练域间隙。推理域差距的特点是强烈依赖于每个对象的 LiDAR 点数，而训练差距则没有这种依赖关系。

Towards Fewer Labels: Support Pair Active Learning for Person Re-identification
Authors Dapeng Jin, Minxian Li
基于监督学习的person re识别reid需要大量的人工标注数据，在实际reid部署中不适用。在这项工作中，我们提出了一个支持对主动学习 SPAL 框架，以降低大规模人员重新识别的手动标记成本。支持对可以提供最多信息的关系并支持判别特征学习。具体来说，我们首先设计了一种双重不确定性选择策略来迭代地发现支持对并需要人工注释。之后，我们引入了一种约束聚类算法来将标记的支持对的关系传播到其他未标记的样本。此外，提出了一种由无监督对比损失和监督支持对损失组成的混合学习策略来学习判别性re id特征表示。所提出的整体框架可以通过挖掘和利用关键支持对有效地降低标记成本。

Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and Adaptive Inference Approach
Authors Chen Tang, Haoyu Zhai, Kai Ouyang, Zhi Wang, Yifei Zhu, Wenwu Zhu
传统的模型量化方法对不同的数据样本采用固定的量化方案，忽略了各种样本之间固有的识别难度差异。我们建议用不同的量化方案提供不同的数据样本，以在细粒度层级实现数据相关的动态推理。然而，使用可变的逐层量化方案实现这种自适应推理具有挑战性，因为位宽和层的组合呈指数增长，使得在如此广阔的搜索空间中训练单个模型并在实践中使用它变得极其困难。为了解决这个问题，我们提出了任意位宽网络 ABN，其中单个深度网络的位宽可以在运行时针对不同的数据样本发生变化，并具有层级粒度。具体来说，首先我们构建了一个权重共享的分层可量化超级网络，其中每一层都可以分配多个位宽，因此可以根据需要进行不同的量化。超级网络提供了大量的位宽和层组合，每个组合都可以在推理过程中使用，而无需重新训练或存储无数模型。其次，基于经过良好训练的超级网络，将每一层的运行时位宽选择决策建模为马尔可夫决策过程 MDP，并通过自适应推理策略进行相应的求解。实验表明，可以在不降低精度的情况下构建超级网络，并且可以调整每层的位宽分配以动态处理各种输入。

DGECN: A Depth-Guided Edge Convolutional Network for End-to-End 6D Pose Estimation
Authors Tuo Cao, Fei Luo, Yanping Fu, Wenxiao Zhang, Shengjie Zheng, Chunxia Xiao
单目 6D 姿态估计是计算机视觉中的一项基本任务。现有工作通常采用两阶段管道，通过建立对应关系并利用 RANSAC 算法计算 6 个自由度 6DoF 位姿。最近的工作试图整合可微分的 RANSAC 算法来实现端到端的 6D 姿态估计。然而，它们中的大多数几乎不考虑 3D 空间中的几何特征，并且在执行可微 RANSAC 算法时忽略了拓扑线索。为此，我们提出了一种用于 6D 姿态估计任务的深度引导边缘卷积网络 DGECN。我们从以下三个方面进行了努力 1 我们利用估计的深度信息来指导对应提取过程和具有几何信息的级联可微RANSAC算法。 2 我们利用估计深度图的不确定性来提高输出 6D 姿势的准确性和鲁棒性。 3 我们通过边缘卷积提出了一种可微分透视 n 点 PnP 算法来探索 2D 3D 对应关系之间的拓扑关系。

Transformer-Guided Convolutional Neural Network for Cross-View Geolocalization
Authors Teng Wang, Shujuan Fan, Daikun Liu, Changyin Sun
地面到航空地理定位是指通过将地面查询图像与地理标记航空图像的参考数据库进行匹配来定位地面查询图像。这是非常具有挑战性的，因为这两个视图之间的视觉外观和几何配置存在巨大的透视差异。在这项工作中，我们提出了一种新颖的 Transformer 引导的卷积神经网络 TransGCNN 架构，它将基于 CNN 的局部特征与基于 Transformer 的全局表示相结合，以增强表示学习。具体来说，我们的 TransGCNN 由一个从输入图像中提取特征图的 CNN 主干网络和一个从 CNN 图中对全局上下文进行建模的 Transformer 头部组成。特别是，我们的 Transformer 头充当空间感知重要性生成器，以选择显着的 CNN 特征作为最终特征表示。这样的耦合过程使我们能够利用轻量级的 Transformer 网络来大大增强嵌入式特征的判别能力。此外，我们设计了一个双分支 Transformer 头网络来组合来自多尺度窗口的图像特征，以改善全局特征表示的细节。在流行的基准数据集上进行的大量实验表明，我们的模型在 CVUSA 和 CVACT val 上分别达到了 94.12 和 84.92 的 top 1 准确率，这在少于 50 个参数和几乎 2 倍高帧速率的情况下优于第二个执行基线，因此实现了更好的准确率效率

ChildPredictor: A Child Face Prediction Framework with Disentangled Learning
Authors Yuzhi Zhao, Lai Man Po, Xuehui Wang, Qiong Yan, Wei Shen, Yujia Zhang, Wei Liu, Chun Kit Wong, Chiu Sing Pang, Weifeng Ou, Wing Yin Yu, Buhua Liu
孩子的外貌是从父母那里遗传下来的，这使得预测他们成为可能。预测真实的儿童面孔可能有助于解决许多社会问题，例如年龄不变的人脸识别、亲属关系验证和失踪儿童识别。它可以被视为图像到图像的翻译任务。现有方法通常假设图像中的域信息到图像的转换可以通过样式来解释，即图像内容和样式的分离。然而，这种分离对于孩子的面部预测是不合适的，因为孩子和父母之间的面部轮廓并不相同。为了解决这个问题，我们提出了一种新的儿童面部预测的解耦学习策略。我们假设儿童的面部是由遗传因素决定的紧凑的家庭特征，例如面部轮廓，与预测无关的外部因素面部属性，例如胡须和眼镜，以及每个孩子的个人属性的多样性因素。在此基础上，我们将预测制定为从父母遗传因素到儿童遗传因素的映射，并将其与外部因素和多样性因素分开。为了获得准确的遗传因素并进行映射，我们提出了一个 ChildPredictor 框架。它通过编码器将人脸传递给遗传因素，然后由生成器返回。然后，它通过映射函数学习父母和孩子的遗传因素之间的关系。为了确保生成的人脸是真实的，我们收集了一个大型家庭人脸数据库来训练 ChildPredictor 并在 FF 数据库验证集上对其进行评估。实验结果表明，ChildPredictor 在预测真实多样的儿童面孔方面优于其他众所周知的图像到图像转换方法。

Referring Expression Comprehension via Cross-Level Multi-Modal Fusion
Authors Peihan Miao, Wei Su, Lian Wang, Yongjian Fu, Xi Li
作为视觉语言任务中一个重要且具有挑战性的问题，指称表达理解 REC 旨在定位由给定指称表达指定的目标对象。最近，大多数最先进的 REC 方法主要关注多模态融合，而忽略了视觉和语言编码器中包含的固有层次信息。考虑到 REC 需要视觉和文本层次信息来实现准确的目标定位，并且编码器固有地以层次方式提取特征，我们建议有效地利用不同层次的视觉和语言编码器中包含的丰富层次信息。为此，我们设计了一个Cross level Multi modal Fusion CMF框架，通过intra modal和inter modal逐渐融合了多层的视觉和文本特征。

Domain Invariant Model with Graph Convolutional Network for Mammogram Classification
Authors Churan Wang, Jing Li, Xinwei Sun, Fandong Zhang, Yizhou Yu, Yizhou Wang
由于其安全关键特性，需要基于图像的诊断来实现对分布外 OOD 样本的鲁棒性。实现这一目标的一种自然方法是仅捕获与临床疾病相关的特征，这些特征由宏观属性组成，例如边缘、形状和基于微观图像的特征，例如病变相关区域的纹理。然而，在学习过程中，此类疾病相关特征通常与数据相关但与疾病无关的偏差交织在一起，从而禁用了 OOD 泛化。为了解决这个问题，我们提出了一个新的框架，即带有图卷积网络 DIM GCN 的域不变模型，它只利用来自多个域的不变疾病相关特征。具体来说，我们首先提出了一个贝叶斯网络，它将潜在变量明确地分解为疾病相关和其他疾病无关的部分，这些部分可以证明是相互分离的。在此指导下，我们重新制定了基于变分自动编码器的目标函数，其中每个域中的编码器有两个分支，分别是与疾病相关的和不相关的特征。为了更好地捕捉宏观特征，我们通过图卷积网络 GCN 利用观察到的临床属性作为重建目标。最后，我们只实现与疾病相关的特征进行预测。

Multi-scale Knowledge Distillation for Unsupervised Person Re-Identification
Authors Long Lan, Xiao Teng, Haoang Chi, Xiang Zhang
无监督人员重新识别是计算机视觉中一项具有挑战性和有前途的任务。如今，无监督人员重新识别方法通过使用伪标签进行训练已经取得了很大的进步。然而，外观和标签噪声在无监督方式下的研究较少。为了减轻所涉及的全局特征的外观噪声的影响，我们还考虑了来自两个局部视图的特征并产生多尺度特征。我们探索知识蒸馏来过滤标签噪声，具体来说，我们首先以迭代的方式从嘈杂的伪标签中训练一个教师模型，然后使用教师模型来指导我们的学生模型的学习。在我们的设置中，学生模型可以在教师模型的监督下快速收敛，从而减少噪声标签的干扰，因为教师模型受到了很大的影响。在仔细处理特征学习中的噪声后，我们的多尺度知识蒸馏被证明在无监督重新识别中非常有效。在三个流行的人重新识别数据集上进行的广泛实验证明了我们方法的优越性。

Progressive Training of A Two-Stage Framework for Video Restoration
Authors Meisong Zheng, Qunliang Xing, Minglang Qiao, Mai Xu, Lai Jiang, Huaida Liu, Ying Chen
作为一项广泛研究的任务，视频恢复旨在提高具有多种潜在降级的视频质量，例如噪声、模糊和压缩伪影。在视频修复中，压缩视频质量增强和视频超分辨率是两个在实际场景中具有重要价值的主要策略。最近，递归神经网络和变换器在该领域吸引了越来越多的研究兴趣，因为它们在序列到序列建模方面具有令人印象深刻的能力。然而，这些模型的训练不仅成本高昂，而且相对难以收敛，存在梯度爆炸和消失的问题。为了解决这些问题，我们提出了一个包括多帧循环网络和单帧变换器的两阶段框架。此外，还开发了多种训练策略，例如迁移学习和渐进式训练，以缩短训练时间并提高模型性能。

Perception Visualization: Seeing Through the Eyes of a DNN
Authors Loris Giulivi, Mark James Carman, Giacomo Boracchi
人工智能 AI 系统为我们生活的世界提供动力。深度神经网络 DNN 能够在不断扩大的场景中解决任务，但我们渴望应用这些强大的模型导致我们专注于它们的性能，而不优先考虑我们理解它们的能力.目前可解释人工智能领域的研究试图通过开发各种基于扰动或梯度的解释技术来弥合这一差距。对于图像，这些技术无法完全捕获和传达解释模型为何做出预测所需的语义信息。在这项工作中，我们开发了一种新的解释形式，它在本质上与当前的解释方法（如 Grad CAM）完全不同。感知可视化通过描述潜在表示对应的视觉模式来提供 DNN 在输入图像中感知的视觉表示。可视化是通过反转编码特征的重建模型获得的，这样原始模型的参数和预测不会被修改。

CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic Segmentation
Authors Xiaoyan Li, Gang Zhang, Hongyu Pan, Zhenhua Wang
先进自动驾驶所需的 LiDAR 语义分割需要准确、快速且易于部署在移动平台上。以前基于点或基于稀疏体素的方法与实时应用相去甚远，因为采用了耗时的邻居搜索或稀疏 3D 卷积。最近的基于二维投影的方法，包括范围视图和多视图融合，可以实时运行，但由于二维投影过程中的信息丢失，精度较低。此外，为了提高性能，以前的方法通常采用测试时间增加 TTA ，这进一步减慢了推理过程。为了实现更好的速度精度权衡，我们提出了 Cascade Point Grid Fusion Network CPGNet ，它主要通过以下两种技术确保有效性和效率 1 新颖的 Point Grid PG 融合块主要在 2D 投影网格上提取语义特征以提高效率，同时总结了 3D 点上的 2D 和 3D 特征以最小化信息损失 2 提出的转换一致性损失缩小了单时间模型推理和 TTA 之间的差距。

Beyond the Prototype: Divide-and-conquer Proxies for Few-shot Segmentation
Authors Chunbo Lang, Binfei Tu, Gong Cheng, Junwei Han
很少有镜头分割，旨在仅给定少数密集标记的样本来分割看不见的类对象，已受到社区的广泛关注。现有方法通常遵循原型学习范式来执行元推理，这未能充分利用来自支持图像掩码对的基础信息，导致各种分割失败，例如不完整的对象、模糊的边界和干扰激活。为此，我们本着分而治之的精神提出了一个简单而通用的框架。具体来说，首先在带注释的支持图像上实施一种新颖的自推理方案，然后将粗分割掩模划分为具有不同属性的多个区域。利用有效的掩蔽平均池操作，衍生出一系列支持诱导代理，每个代理都在克服上述挑战中发挥特定作用。此外，我们设计了一种独特的并行解码器结构，该结构集成了具有相似属性的代理，以提高识别能力。我们提出的方法，命名为分而治之的代理 DCP，允许开发适当且可靠的信息作为剧集级别的指南，而不仅仅是关于对象线索本身。在 PASCAL 5i 和 COCO 20i 上进行的大量实验证明了 DCP 优于传统的基于原型的方法，平均可达 5 10，这也建立了一个新的技术状态。

Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion Fields
Authors Ziang Cheng, Shihao Jiang, Hongdong Li
视频帧插值的问题是通过在现有的时间稀疏帧之间插值新帧来增加低帧率视频的时间分辨率。本文提出了一种仅需要单个视频的视频帧插值的自我监督方法。我们将视频设置为一组图层。每层由两个隐式神经网络参数化，一个用于学习静态帧，另一个用于与视频动态相对应的时变运动场。它们一起代表具有伪深度通道的场景的无遮挡子集。为了模拟层间遮挡，所有层都被提升到 2.5D 空间，这样前层就会遮挡远处的层。这是通过为每一层分配一个深度通道来完成的，我们称之为伪深度，其偏序定义了层之间的遮挡。伪深度通过完全可微分的 SoftMin 函数转换为可见性值，以便较近的层比远处的层更可见。另一方面，我们通过求解一个在保证有效运动的时变神经速度场上定义的普通可微方程 ODE 来参数化视频运动。这种隐式神经表示将视频学习为时空连续体，允许在任何时间分辨率下进行帧插值。

Color Invariant Skin Segmentation
Authors Han Xu, Abhijit Sarkar, A. Lynn Abbott
本文解决了在不依赖颜色信息的情况下自动检测图像中的人体皮肤的问题。这项工作的主要动机是在整个肤色范围内实现一致的结果，即使使用明显偏向较浅肤色的训练数据集也是如此。以前的皮肤检测方法几乎只使用颜色提示，我们提出了一种在没有此类信息的情况下表现良好的新方法。这项工作的一个关键方面是通过在训练期间战略性地应用增强来修复数据集，目的是通过颜色不变的特征学习来增强泛化能力。我们已经使用两种架构演示了这一概念，实验结果表明，基准 ECU 数据集中大多数 Fitzpatrick 肤色的精度和召回率都有所提高。我们使用 RFW 数据集进一步测试了该系统，以表明所提出的方法在不同种族中表现得更加一致，从而减少了基于肤色的偏见的机会。为了证明我们工作的有效性，对灰度图像以及在不受约束的照明和人工过滤器下获得的图像进行了广泛的实验。

CNLL: A Semi-supervised Approach For Continual Noisy Label Learning
Authors Nazmul Karim, Umar Khalid, Ashkan Esmaeili, Nazanin Rahnavard
持续学习的任务需要仔细设计可以解决灾难性遗忘的算法。然而，在现实世界场景中不可避免的嘈杂标签似乎加剧了这种情况。虽然很少有研究解决在嘈杂标签下持续学习的问题，但在大多数情况下，训练时间长和训练方案复杂限制了它们的应用。相比之下，我们提出了一种简单的净化技术来有效地净化在线数据流，既经济又准确。纯化后，我们以半监督的方式进行微调，以确保所有可用样本的参与。以这种方式训练有助于我们学习更好的表示，从而产生最先进的 SOTA 性能。通过对 3 个基准数据集 MNIST、CIFAR10 和 CIFAR100 的广泛实验，我们展示了我们提出的方法的有效性。我们在 CIFAR10 中实现了 24.8 的性能增益，与以前的 SOTA 方法相比，噪声为 20。

Persistent-Transient Duality in Human Behavior Modeling
Authors Hung Tran, Vuong Le, Svetha Venkatesh, Truyen Tran
我们建议使用父子多通道神经网络对人类行为中的持久瞬态二元性进行建模，该网络具有管理全局动态的父持久通道和按需启动和终止以处理详细交互动作的子瞬态通道。短暂的瞬态会话由提议的瞬态交换机管理。训练神经框架以自动发现对偶的结构。

Physics vs. Learned Priors: Rethinking Camera and Algorithm Design for Task-Specific Imaging
Authors Tzofi Klinghoffer, Siddharth Somasundaram, Kushagra Tiwary, Ramesh Raskar
相机最初是使用基于物理的启发式方法设计的，以捕捉美学图像。近年来，相机设计已经从纯粹的物理驱动转变为越来越多的数据驱动和特定任务。在本文中，我们提出了一个框架来理解相机硬件和算法的端到端设计这一新兴领域的构建块。作为该框架的一部分，我们展示了利用物理和数据的方法如何在成像和计算机视觉中变得普遍，强调了将继续主导任务特定相机设计未来的关键趋势。

Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval
Authors Zhiqiang Yuan, Wenkai Zhang, Kun Fu, Xuan Li, Chubo Deng, Hongqi Wang, Xian Sun
遥感RS跨模态文本图像检索以其输入灵活、查询高效等优点引起了广泛关注。然而，传统方法忽略了遥感图像中多尺度和冗余目标的特点，导致检索精度下降。针对 RS 多模态检索任务中的多尺度稀缺性和目标冗余问题，我们提出了一种新颖的非对称多模态特征匹配网络 AMFMN。我们的模型适应多尺度特征输入，支持多源检索方法，并且可以动态过滤冗余特征。 AMFMN 采用多尺度视觉自注意力 MVSA 模块来提取 RS 图像的显着特征，并利用视觉特征来指导文本表示。此外，为了减轻RS图像中强类内相似性导致的正样本模糊性，我们提出了一种基于样本对先验相似性的具有动态可变边距的三元组损失函数。最后，与传统的RS图像文本数据集文本粗、类内相似度较高不同，我们构建了一个细粒度、更具挑战性的遥感图像文本匹配数据集RSITMD，支持通过关键字和句子分别和联合进行RS图像检索。

Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images
Authors Chao Wen, Yinda Zhang, Chenjie Cao, Zhuwen Li, Xiangyang Xue, Yanwei Fu
我们从少量有或没有相机姿势的彩色图像中研究 3D 网格表示中的形状生成问题。虽然许多以前的作品直接从先验中学习了对形状产生幻觉，但我们通过利用带有图卷积网络的交叉视图信息来进一步提高形状质量。我们的模型不是构建从图像到 3D 形状的直接映射函数，而是学习预测一系列变形以迭代地改进粗略形状。受传统多视图几何方法的启发，我们的网络对初始网格顶点位置周围的附近区域进行采样，并使用从多个输入图像构建的感知特征统计来推断最佳变形。大量实验表明，我们的模型生成了准确的 3D 形状，这些形状不仅从输入角度看起来合理，而且可以很好地与任意视点对齐。在物理驱动架构的帮助下，我们的模型还表现出跨不同语义类别和输入图像数量的泛化能力。

Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information
Authors Zhiqiang Yuan, Wenkai Zhang, Changyuan Tian, Xuee Rong, Zhengyuan Zhang, Hongqi Wang, Kun Fu, Xian Sun
跨模态遥感文本图像检索 RSCTIR 由于其能够对遥感 RS 图像进行快速灵活的信息提取，近年来成为一个紧迫的研究热点。然而，目前的 RSCTIR 方法主要关注 RS 图像的全局特征，这导致忽略了反映目标关系和显着性的局部特征。在本文中，我们首先提出了一种基于全局和局部信息 GaLR 的新型 RSCTIR 框架，并设计了一个多层次信息动态融合 MIDF 模块，以有效地整合不同层次的特征。 MIDF利用局部信息修正全局信息，利用全局信息补充局部信息，并利用两者的动态相加来生成突出的视觉表示。为了减轻图卷积网络 GCN 上冗余目标的压力，提高模型在局部特征建模过程中对显着实例的注意力，设计了去噪表示矩阵和增强邻接矩阵 DREA，以帮助 GCN 产生更好的局部表示. DREA不仅过滤掉相似度高的冗余特征，而且通过增强突出对象的特征来获得更强大的局部特征。最后，为了在推理过程中充分利用相似度矩阵中的信息，我们提出了一种即插即用的多元重排序 MR 算法。该算法利用检索结果的k个最近邻进行反向搜索，并通过组合双向检索的多个分量来提高性能。在公共数据集上进行的大量实验有力地证明了 GaLR 方法在 RSCTIR 任务上的最新性能。

Self-Supervised Learning to Guide Scientifically Relevant Categorization of Martian Terrain Images
Authors Tejas Panambur, Deep Chakraborty, Melissa Meyer, Ralph Milliken, Erik Learned Miller, Mario Parente
火星探测器图像中的自动地形识别不仅对于导航而言是一个重要问题，而且对于有兴趣研究岩石类型的科学家来说也是一个重要问题，进而研究古代火星古气候和可居住性的条件。标记火星地形的现有方法要么涉及使用非专家注释器产生有限粒度的分类法，例如土壤、沙子、基岩、浮石等，或依赖于一般的类别发现方法，这些方法往往会产生与地质分析无关的感知类别，例如漫游车部件和景观。包含颗粒地质地貌地形类别的专家标记数据集很少或公众无法访问，有时需要从复杂的注释中提取相关的类别信息。为了便于创建具有详细地形类别的数据集，我们提出了一种自我监督的方法，该方法可以对从好奇号火星科学实验室上的桅杆相机捕获的图像中的沉积纹理进行聚类。然后，我们对这些集群进行定性分析，并通过创建一组粒状地形类别来描述它们的地质意义。

Weakly Aligned Feature Fusion for Multimodal Object Detection
Authors Lu Zhang, Zhiyong Liu, Xiangyu Zhu, Zhan Song, Xu Yang, Zhen Lei, Hong Qiao
为了在现实世界场景中实现准确和鲁棒的对象检测，结合了各种形式的图像，例如颜色、热和深度。然而，多模态数据经常会遇到位置偏移问题，即图像对没有严格对齐，使得一个对象在不同的模态中具有不同的位置。对于深度学习方法，这个问题使得多模态特征难以融合，困扰卷积神经网络 CNN 训练。在本文中，我们提出了一种通用的多模态检测器，名为对齐区域 CNN AR CNN 来解决位置偏移问题。首先，设计了具有相邻相似性约束的区域特征 RF 对齐模块，以一致地预测两个模态之间的位置偏移并自适应地对齐交叉模态 RF。其次，我们提出了一种新的感兴趣区域 RoI 抖动策略，以提高对意外移位模式的鲁棒性。第三，我们提出了一种新的多模态特征融合方法，该方法通过特征重新加权来选择更可靠的特征并抑制不太有用的特征。此外，通过在两种模式中定位边界框并建立它们的关系，我们提供了名为 KAIST Paired 的新型多模式标签。

Unseen Object Instance Segmentation with Fully Test-time RGB-D Embeddings Adaptation
Authors Lu Zhang, Siqi Zhang, Xu Yang, Zhiyong Liu
分割看不见的物体是机器人的一项关键能力，因为它在操作过程中可能会遇到新的环境。最近，一种流行的解决方案是利用大规模合成数据的 RGB D 特征，并将模型直接应用于看不见的现实世界场景。然而，尽管深度数据具有良好的泛化能力，但由于 Sim2Real 差距导致的域转移是不可避免的，这对看不见的对象实例分割 UOIS 模型提出了关键挑战。为了解决这个问题，我们在本文中重新强调了跨 Sim2Real 域的适应过程。具体来说，我们提出了一个框架来基于 BatchNorm 层的参数进行完全测试时间 RGB D 嵌入自适应 FTEA。为了构建测试时间反向传播的学习目标，我们提出了一种新的非参数熵目标，可以在没有明确分类层的情况下实现。此外，我们设计了一个跨模态知识蒸馏模块来鼓励测试期间的信息传递。所提出的方法可以有效地使用测试时间图像进行，无需注释或重新访问大规模合成训练数据。除了显着节省时间外，所提出的方法还在重叠和边界度量上持续改进了分割结果，在两个真实世界的 RGB D 图像数据集上实现了最先进的性能。

Multiscale Analysis for Improving Texture Classification
Authors Steve T. M. Ataky, Diego Saqui, Jonathan de Matos, Alceu S. Britto Jr., Alessandro L. Koerich
来自图像的信息发生在多个不同的空间尺度上。图像金字塔多分辨率表示是一种有用的数据结构，用于在一系列空间尺度上进行图像分析和操作。本文采用高斯拉普拉斯金字塔分别处理纹理的不同空间频带。首先，我们为输入图像生成对应于高斯拉普拉斯金字塔的三个级别的三个图像，以捕获内在细节。然后，我们使用生物启发的纹理描述符、信息论测量、灰度共现矩阵特征和 Haralick 统计特征将从灰色和彩色纹理图像中提取的特征聚合到单个特征向量中。这种聚合旨在产生最大程度地表征纹理的特征，而不是单独使用每个描述符，这可能会丢失一些相关的纹理信息并降低分类性能。纹理和组织病理学图像数据集的实验结果表明，与最先进的方法相比，所提出的方法具有优势。

Fast AdvProp
Authors Jieru Mei, Yucheng Han, Yutong Bai, Yixiao Zhang, Yingwei Li, Xianhang Li, Alan Yuille, Cihang Xie
对抗性传播 AdvProp 是利用对抗性示例改进识别模型的有效方法。尽管如此，AdvProp 的训练速度极慢，主要是因为生成对抗性示例需要额外的前向和后向传递，因为原始样本和它们的对抗性对应物都用于训练，即 2 倍数据。在本文中，我们介绍了 Fast AdvProp，它积极改进了 AdvProp 昂贵的训练组件，使该方法几乎与普通训练一样便宜。

SimMC: Simple Masked Contrastive Learning of Skeleton Representations for Unsupervised Person Re-Identification
Authors Haocong Rao, Chunyan Miao
基于骨架的人重新识别 re ID 的最新进展通过手工制作的骨架描述符或具有深度学习范式的骨架表示学习获得了令人印象深刻的性能。然而，它们通常需要骨骼预建模和标签信息进行训练，这导致这些方法的适用性有限。在本文中，我们专注于基于无监督骨架的person re ID，并提出了一个通用的Simple Masked Contrastive Learning SimMC框架，以从未标记的3D骨架中学习用于person re ID的有效表示。具体来说，为了充分利用每个骨架序列中的骨架特征，我们首先设计了一个掩蔽原型对比学习 MPC 方案，从原始序列中随机掩蔽的不同子序列中聚类最典型的骨架特征骨架原型，并对比骨架特征与不同子序列之间的内在相似性。原型来学习有区别的骨架表示，而不使用任何标签。然后，考虑到由于运动连续性的性质，同一序列内的不同子序列通常具有很强的相关性，我们提出了掩蔽序列内对比学习 MIC 来捕获子序列之间的序列内模式一致性，以鼓励学习更有效的骨架表示人重新身份证。大量实验验证了所提出的 SimMC 优于大多数最先进的基于骨架的方法。我们进一步展示了它在提高现有模型性能方面的可扩展性和效率。

Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing
Authors Benedikt Boecking, Naoto Usuyama, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Stephanie Hyland, Maria Wetscherek, Tristan Naumann, Aditya Nori, Javier Alvarez Valle, Hoifung Poon, Ozan Oktay
多模态数据在生物医学中比比皆是，例如放射图像和报告。大规模解释这些数据对于改善临床护理和加速临床研究至关重要。与一般领域相比，具有复杂语义的生物医学文本在视觉语言建模中提出了额外的挑战，并且以前的工作使用了缺乏特定领域语言理解的适应不足的模型。在本文中，我们展示了有原则的文本语义建模可以显着改善自我监督视觉语言处理中的对比学习。我们发布了一个语言模型，通过其改进的词汇和新颖的语言预训练目标，利用放射学报告中的语义和语篇特征，实现放射学自然语言推理的最新成果。此外，我们提出了一种自我监督的联合视觉语言方法，重点是更好的文本建模。它在广泛的公开可用基准上建立了新的最先进的结果，部分是通过利用我们新的领域特定语言模型。我们发布了一个新的数据集，其中包含放射科医生的局部对齐短语基础注释，以促进对生物医学视觉语言处理中复杂语义建模的研究。

Multimodal Gaussian Mixture Model for Realtime Roadside LiDAR Object Detection
Authors Tianya Zhang, Peter J. Jin, Yi Ge
背景建模广泛用于智能监控系统，通过减去静态背景分量来检测运动目标。大多数路边激光雷达目标检测方法通过将新点与预先训练的背景参考进行比较来过滤前景点，这些参考基于许多帧上的描述性统计数据，例如体素密度、坡度、最大距离。这些解决方案在交通繁忙的情况下效率不高，并且参数值难以从一种场景转移到另一种场景。在早期的研究中，基于视频的背景建模方法由于点云数据稀疏和非结构化，被认为不适合路边 LiDAR 监控系统。本文根据每个激光雷达点的仰角和方位角值将原始激光雷达数据转化为多维张量结构。通过这种高阶数据表示，我们打破了障碍，允许使用高效的高斯混合模型 GMM 方法进行路边 LiDAR 背景建模。概率 GMM 具有卓越的敏捷性和实时能力。将所提出的方法与两种最先进的路边 LiDAR 背景模型进行比较，并基于点级别、对象级别和路径级别进行评估，在交通繁忙和恶劣天气下表现出更好的鲁棒性。

SELMA: SEmantic Large-scale Multimodal Acquisitions in Variable Weather, Daytime and Viewpoints
Authors Paolo Testolina, Francesco Barbato, Umberto Michieli, Marco Giordani, Pietro Zanuttigh, Michele Zorzi
从安装在汽车上的多个传感器准确了解场景是自动驾驶系统的关键要求。如今，这项任务主要通过需要大量数据进行训练的数据密集型深度学习技术来执行。由于执行分割标记的高成本，已经提出了许多合成数据集。然而，它们中的大多数都忽略了数据的多传感器性质，并且没有捕捉到由白天和天气条件的变化带来的显着变化。为了填补这些空白，我们引入了 SELMA，这是一种用于语义分割的新型合成数据集，其中包含在 27 个不同的大气和白天条件下从 24 个不同的传感器（包括 RGB、深度、语义相机和 LiDAR）获取的超过 30K 个独特的航路点，总共超过 20M 的样本。 SELMA 基于 CARLA，这是一个用于在自动驾驶场景中生成合成数据的开源模拟器，我们对其进行了修改以增加场景和类集的可变性和多样性，并将其与其他基准数据集保持一致。如实验评估所示，SELMA 允许对标准和多模态深度学习架构进行高效训练，并在现实世界数据上取得显著成果。

Multi-Scale Features and Parallel Transformers Based Image Quality Assessment
Authors Abhisek Keshari, Komal, Sadbhawna, Badri Subudhi
随着多媒体内容的增加，与多媒体相关的失真类型也在增加。这个图像质量评估问题在 PIPAL 数据集中得到了很好的扩展，这对于研究人员来说仍然是一个悬而未决的问题。虽然，最近提出的变压器网络已经在文献中用于图像质量评估。同时，我们注意到多尺度特征提取已被证明是一种很有前途的图像质量评估方法。然而，到目前为止，变压器网络用于图像质量评估的方式缺乏多尺度特征提取的这些特性。我们在我们的方法中利用了这一事实，并通过整合这两种有前途的图像质量评估技术提出了一种新的架构。我们对各种数据集（包括 PIPAL 数据集）的实验表明，所提出的集成技术优于现有算法。

Multi-Focus Image Fusion based on Gradient Transform
Authors Sultan Sevgi Turgut, Mustafa Oral
多焦点图像融合是一个具有挑战性的研究领域，旨在通过整合聚焦和非聚焦像素来提供完全聚焦的图像。大多数现有方法都存在移位方差、图像配准错误和数据相关的问题。在这项研究中，我们介绍了一种新的基于梯度信息的多焦点图像融合方法，该方法对上述问题具有鲁棒性。所提出的方法首先通过使用Halftoning Inverse Halftoning H IH变换从原始图像生成梯度图像。然后，梯度EOG的能量和标准偏差函数被用作梯度图像的焦点测量，形成融合图像。最后，为了增强融合图像，采用决策融合方法和多数投票法。所提出的方法在视觉和客观上与 17 种不同的新颖和传统技术进行了比较。对于客观评估，使用了 6 种不同的定量指标。

Attention in Reasoning: Dataset, Analysis, and Modeling
Authors Shi Chen, Ming Jiang, Jinhui Yang, Qi Zhao
虽然注意力已经成为深度神经网络中越来越受欢迎的组件，用于解释和提高模型的性能，但很少有工作研究注意力如何进展以完成任务以及它是否合理。在这项工作中，我们提出了一个具有推理能力的注意力 AiR 框架，该框架使用注意力来理解和改进导致任务结果的过程。我们首先基于一系列原子推理操作定义评估指标，从而能够对考虑推理过程的注意力进行定量测量。然后，我们收集人眼跟踪和回答正确性数据，并分析各种机器和人类注意力机制的推理能力以及它们如何影响任务性能。为了提高视觉问答模型的注意力和推理能力，我们建议在推理过程中逐步监督注意力的学习，并区分正确和不正确的注意力模式。我们证明了所提出的框架在分析和建模注意力方面的有效性，具有更好的推理能力和任务性能。

Time-based Self-supervised Learning for Wireless Capsule Endoscopy
Authors Guillem Pascual, Pablo Laiz, Albert Garc a, Hagen Wenzek, Jordi Vitri , Santi Segu
最先进的机器学习模型，尤其是深度学习模型，需要大量的数据，它们需要大量手动标记的样本才能正常运行。然而，在大多数医学成像领域，获取所述数据可能具有挑战性。不仅数据量是一个问题，而且其类别中的不平衡也是一个问题，通常健康患者的图像比病理患者的图像多得多。计算机辅助诊断系统受到这些问题的困扰，通常会过度设计其模型以准确执行。这项工作建议通过引入一种最初不需要标签或适当平衡的定制方法，对无线内窥镜视频使用自我监督学习。

Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval
Authors Mustafa Shukor, Guillaume Couairon, Asya Grechka, Matthieu Cord
近年来，跨模态图像配方检索得到了极大的关注。大多数工作都集中在使用单模态编码器改进跨模态嵌入，这允许在大规模数据库中进行有效检索，而将计算成本更高的模态之间的交叉注意力放在一边。我们提出了一个新的检索框架，T Food Transformer Decoders with MultiModal Regularization for Cross Modal Food Retrieval，它利用一种新颖的正则化方案中的模态之间的交互，同时在测试时仅使用单模态编码器进行有效检索。我们还使用专用的配方编码器捕获配方实体之间的内部依赖关系，并提出具有适应任务难度的动态边距的三元组损失的新变体。最后，我们利用最新的视觉和语言预训练 VLP 模型的强大功能，例如用于图像编码器的 CLIP。我们的方法在 Recipe1M 数据集上大大优于现有方法。具体来说，我们在 1k 和 10k 测试集上分别实现了 8.1 72.6 R 1 和 10.9 44.6 R 1 的绝对改进。

FS-NCSR: Increasing Diversity of the Super-Resolution Space via Frequency Separation and Noise-Conditioned Normalizing Flow
Authors Ki Ung Song, Dongseok Shim, Kang wook Kim, Jae young Lee, Younggeun Kim
超分辨率存在一个先天的病态问题，即单个低分辨率 LR 图像可以来自多个高分辨率 HR 图像。最近对基于流的算法的研究通过学习超分辨率空间和预测不同的 HR 输出来解决这种不适定性。不幸的是，超分辨率输出的多样性仍然不能令人满意，并且基于流的模型的输出通常会受到不希望的伪影的影响，从而导致低质量的输出。在本文中，我们提出了 FS NCSR，与现有的基于流的方法相比，它使用频率分离和噪声调节来产生多样化和高质量的超分辨率输出。由于图像的清晰度和高质量细节依赖于其高频信息，FS NCSR 仅估计高分辨率输出的高频信息，而没有多余的低频分量。

TorchSparse: Efficient Point Cloud Inference Engine
Authors Haotian Tang, Zhijian Liu, Xiuyu Li, Yujun Lin, Song Han
点云深度学习因其在 AR VR 和自动驾驶中的广泛应用而受到越来越多的关注。这些应用程序需要低延迟和高精度来提供实时用户体验并确保用户安全。与传统的密集工作负载不同，点云的稀疏和不规则性质对在通用硬件上有效运行稀疏 CNN 提出了严峻挑战。此外，现有的 2D 图像稀疏加速技术不能转化为 3D 点云。在本文中，我们介绍了 TorchSparse，这是一种高性能点云推理引擎，可加速 GPU 上的稀疏卷积计算。 TorchSparse 直接优化了稀疏卷积不规则计算和数据移动的两个瓶颈。它将自适应矩阵乘法分组应用于交易计算以获得更好的规律性，实现矩阵乘法的 1.4 1.5 倍加速。它还通过采用矢量化、量化和融合的局部感知内存访问来优化数据移动，将内存移动成本降低 2.7 倍。

Adversarial Contrastive Learning by Permuting Cluster Assignments
Authors Muntasir Wahed, Afrina Tabassum, Ismini Lourentzou
对比学习作为一种有效的自我监督表示学习技术而广受欢迎。几个研究方向改进了传统的对比方法，例如，原型对比方法更好地捕捉实例之间的语义相似性并通过考虑集群原型或集群分配来减少计算负担，而对抗性实例对比方法提高了对各种攻击的鲁棒性。据我们所知，之前的工作没有共同考虑鲁棒性、集群语义相似性和计算效率。在这项工作中，我们提出了 SwARo，这是一种对抗性对比框架，它结合了集群分配排列来生成具有代表性的对抗性样本。

DooDLeNet: Double DeepLab Enhanced Feature Fusion for Thermal-color Semantic Segmentation
Authors Oriel Frigo, Lucien Martin Gaff , Catherine Wacongne
在本文中，我们提出了一种在 RGB 和 LWIR 热图像之间进行特征融合的新方法，用于驱动感知的语义分割任务。我们提出了 DooDLeNet，这是一种双 DeepLab 架构，具有用于热和颜色模态的专用编码器解码器和用于最终分割的共享解码器。我们结合了特征融合置信权重和相关权重的两种策略。

OCTOPUS -- optical coherence tomography plaque and stent analysis software
Authors Juhwan Lee, Justin N. Kim, Yazan Gharaibeh, Vladislav N. Zimin, Luis A. P. Dallan, Gabriel T. R. Pereira, Armando Vergara Martel, Chaitanya Kolluru, Ammar Hoori, Hiram G. Bezerra, David L. Wilson
与其他成像方式相比，血管内光学相干断层扫描IVOCT在指导经皮冠状动脉介入治疗方面具有显着优势。为了帮助 IVOCT 研究，我们开发了光学相干断层扫描斑块和支架 OCTOPUS 分析软件。为了使图像分析结果自动化，该软件包括几个重要的算法步骤预处理、深度学习斑块分割、支架支柱的机器学习识别和回撤注册。软件中包括交互式可视化和手动编辑分段。量化包括支架展开特性，例如支架支柱贴壁不良、支柱水平分析、钙角和钙厚度测量。交互式可视化包括 x、y 解剖、正面和纵向视图以及可选的叠加层。底层斑块分割算法产生了出色的像素级结果，灵敏度为 86.2，F1 得分为 0.781。在 34 个新的回调中使用 OCTOPUS，我们确定，在自动分割之后，只有 13 和 23 帧需要任何手动修饰以分别进行详细的流明和钙化标记。仅修改了多达 3.8 个斑块像素，导致平均编辑时间仅为 7.5 秒帧，与手动分析相比减少了约 80 秒。关于支架分析，灵敏度和精度均大于 90，并且每个支柱成功分类为覆盖或未覆盖，具有高灵敏度 94 和特异性 90。我们介绍并评估了高度自动化软件包 OCTOPUS 的临床应用，用于在 IVOCT 图像中进行定量斑块和支架分析。

BTranspose: Bottleneck Transformers for Human Pose Estimation with Self-Supervised Pre-Training
Authors Kaushik Balakrishnan, Devesh Upadhyay
2D 人体姿态估计的任务具有挑战性，因为关键点的数量通常很大 17，这需要使用可以从输入图像中捕获相关特征的稳健神经网络架构和训练管道。然后聚合这些特征以进行准确的热图预测，从中可以推断出人体部位的最终关键点。文献中的许多论文使用基于 CNN 的架构作为主干，或者将其与转换器结合使用，然后聚合特征以进行最终的关键点预测 1。在本文中，我们考虑了最近提出的瓶颈变换器 2，它有效地结合了 CNN 和多头自注意力 MHSA 层，并将其与 Transformer 编码器集成，并将其应用于二维人体姿态估计任务。我们考虑不同的骨干架构并使用 DINO 自监督学习方法 3 对其进行预训练，发现这种预训练可以提高整体预测精度。我们将我们的模型称为 BTranspose，实验表明，在 COCO 验证集上，我们的模型实现了 76.4 的 AP，与 1 等其他方法具有竞争力，并且网络参数更少。

Automated analysis of fibrous cap in intravascular optical coherence tomography images of coronary arteries
Authors Juhwan Lee, Gabriel T. R. Pereira, Yazan Gharaibeh, Chaitanya Kolluru, Vladislav N. Zimin, Luis A. P. Dallan, Justin N. Kim, Ammar Hoori, Sadeer G. Al Kindi, Giulio Guagliumi, Hiram G. Bezerra, David L. Wilson
薄帽纤维粥样硬化 TCFA 和斑块破裂已被认为是血栓形成和急性冠状动脉综合征最常见的危险因素。血管内光学相干断层扫描 IVOCT 可以识别 TCFA 并评估帽厚度，这为评估斑块易损性提供了机会。我们开发了一种自动化方法，可以检测 IVOCT 图像中的脂质斑块并评估纤维帽厚度。本研究共分析了 41 名患者中 77 个病灶的 4,360 个 IVOCT 图像帧。为了提高分割性能，预处理包括对原始极坐标 r、theta IVOCT 图像的流明分割、像素移位和噪声过滤。我们使用 DeepLab v3 和深度学习模型对脂质斑块像素进行分类。脂质检测后，我们使用特殊的动态编程算法自动检测纤维帽的外边界并评估帽的厚度。我们的方法以 85.8 的灵敏度和 0.837 的 A 线 Dice 系数提供了出色的脂质斑块辨别能力。通过在编辑我们的自动化软件后比较两位分析师之间的脂质角测量值，我们发现 Bland Altman 分析差异 6.7 17 度平均 196 度的一致性很好。我们的方法从检测到的脂质斑块中准确地检测到了纤维帽。自动分析只需要对 5.5 帧进行重大修改。此外，我们的方法显示，两位分析师之间的纤维帽厚度非常一致，Bland Altman 分析 4.2 14.6 微米，平均 175 微米，表明用户之间的偏差很小，并且测量的可重复性良好。我们开发了一种用于 IVOCT 图像中纤维帽定量的全自动方法，与分析师的测定结果非常吻合。

Multiple EffNet/ResNet Architectures for Melanoma Classification
Authors Jiaqi Xue, Chentian Ma, Li Li, Xuan Wen
黑色素瘤是恶性程度最高的皮肤肿瘤，通常由正常痣发生癌变，早期难以区分良恶性。因此，许多机器学习方法都在尝试进行辅助预测。然而，这些方法更多地关注疑似肿瘤的图像数据，专注于提高图像分类的准确性，而忽略了患者级上下文信息在实际临床诊断中对疾病诊断的意义。为了更多地利用患者信息并提高诊断的准确性，我们提出了一种基于 EffNet 和 Resnet 的新黑色素瘤分类模型。我们的模型不仅使用同一患者体内的图像，还考虑了患者级别的上下文信息以更好地预测癌症。实验结果表明，所提出的模型达到了 0.981 ACC。

Fluctuation-based Outlier Detection
Authors Xusheng Du, Enguang Zuo, Zhenzhen He, Jiong Yu
异常值检测是机器学习中的一个重要课题，已在广泛的应用中得到应用。异常值是数量很少且偏离大多数对象的对象。由于这两个属性，我们表明异常值容易受到称为波动的机制的影响。本文提出了一种称为基于波动的异常值检测 FBOD 的方法，该方法实现了低线性时间复杂度，并且完全基于波动的概念检测异常值，而不采用任何距离、密度或隔离措施。从根本上不同于所有现有的方法。 FBOD首先通过随机链接将欧几里得结构数据集转换为图，然后根据图的连接传播特征值。最后，通过比较一个对象与其邻居的波动差异，FBOD将差异较大的对象确定为异常值。在八个真实世界表格数据集和三个视频数据集上将 FBOD 与七种最先进算法进行比较的实验结果表明，FBOD 在大多数情况下都优于其竞争对手，并且 FBOD 的执行时间仅为最快算法的 5 倍。

On Learning the Invisible in Photoacoustic Tomography with Flat Directionally Sensitive Detector
Authors Bolin Pan, Marta M. Betcke
在带有平面传感器的光声断层扫描 PAT 中，我们经常遇到两种类型的有限数据。第一个是由于使用了有限传感器，如果感兴趣区域相对于传感器较大或位于离传感器较远的位置，则尤其容易察觉。在本文中，我们关注由传感器对入射波前方向的敏感度变化引起的第二种类型，该类型可以建模为二进制，即通过灵敏度锥。在傅里叶域中，这种可见性条件导致图像和数据都被限制为蝴蝶结，类似于对应于前向算子范围的情况。图像和数据域中的可见范围与波前方向映射相关。我们采用楔形限制 Curvelet 分解，我们之前提出用于表示完整 PAT 数据，以分离图像中的可见和不可见波前。

An Efficient End-to-End Deep Neural Network for Interstitial Lung Disease Recognition and Classification
Authors Masum Shah Junayed, Afsana Ahsan Jeny, Md Baharul Islam, Ikhtiar Ahmed, A F M Shahen Shah
自动化的间质性肺疾病 ILD 分类技术对于在诊断过程中协助临床医生至关重要。检测和分类 ILD 模式是一个具有挑战性的问题。本文介绍了一种用于对 ILD 模式进行分类的端到端深度卷积神经网络 CNN。所提出的模型包括四个具有不同内核大小的卷积层和 Rectified Linear Unit ReLU 激活函数，然后是批量归一化和大小等于最终特征图大小的最大池化以及四个密集层。我们使用 ADAM 优化器来最小化分类交叉熵。采用由 128 个 CT 扫描的 21328 个图像块组成的数据集（具有五个类别）来训练和评估所提出的模型。一项比较研究表明，所提出的模型在相同数据集上优于预训练的 CNN 和五折交叉验证。对于 ILDs 模式分类，所提出的方法实现了 99.09 的准确度得分和 97.9 的平均 F 得分，优于三个预训练的 CNN。

Infographics Wizard: Flexible Infographics Authoring and Design Exploration
Authors Anjul Tyagi, Jian Zhao, Pushkar Patel, Swasti Khurana, Klaus Mueller
信息图表是遵循人类感知的特定设计原则的信息的美学视觉表示。设计信息图表对于非专家来说可能是一个乏味且耗时的过程，即使对于专业设计师也是如此。在设计师的帮助下，我们提出了一个半自动化的信息图框架，用于生成基于一般结构化和流程的信息图设计。对于新手设计师，我们的框架会自动为用户提供的文本创建信息图设计并对其进行排名，而无需设计输入。但是，专家设计师仍然可以提供自定义设计输入来自定义信息图表。我们还将在 SVG 中提供一个单独的视觉组 VG 设计数据集，以及在这项工作中具有分段 VG 的 1k 完整信息图图像数据集。

Parametric Level-sets Enhanced To Improve Reconstruction (PaLEnTIR)
Authors Ege Ozsar, Misha Kilmer, Eric Miller, Eric de Sturler, Arvind Saibaba
在本文中，我们考虑使用 PaLEnTIR 在二维和三维中恢复和重建分段常数对象，PaLEnTIR 是相对于当前技术水平显着增强的参数水平集 PaLS 模型。本文的主要贡献是一种新的 PaLS 公式，它只需要一个水平集函数即可恢复具有多个未知对比度的分段常量对象的场景。我们的模型与当前解决多对比度、多对象问题的方法相比具有明显的优势，所有这些方法都需要多个水平集和对比度大小的显式估计。给定对比度的上限和下限，我们的方法能够恢复具有任何对比度分布的对象，并且无需知道给定场景中的对比度数量或其值。我们提供了一个迭代过程来找到这些空间变化的对比度限制。相对于大多数使用径向基函数 RBF 的 PaLS 方法，我们的模型利用非各向同性基函数，从而扩展了给定复杂度的 PaLS 模型可以近似的形状类别。最后，PaLEnTIR 改进了作为参数识别过程的一部分所需的雅可比矩阵的条件，从而通过控制 PaLS 展开系数的大小、固定基函数的中心以及参数到图像映射的唯一性来加速优化方法由新的参数化提供。我们使用 X 射线计算机断层扫描、漫反射光学断层扫描 DOT、去噪、去卷积问题的 2D 和 3D 变体展示了新方法的性能。

MultiPathGAN: Structure Preserving Stain Normalization using Unsupervised Multi-domain Adversarial Network with Perception Loss
Authors Haseeb Nazki, Ognjen Arandjelovi , InHwa Um, David Harrison
组织病理学依赖于对显微组织图像的分析来诊断疾病。组织准备的一个关键部分是染色，其中使用染料使显着的组织成分更容易区分。然而，实验室协议和扫描设备的差异会导致相应图像出现显着的混杂外观变化。这种变化增加了人为错误和评估者间的可变性，并阻碍了自动或半自动方法的性能。在本论文中，我们引入了一个无监督对抗网络来翻译并因此规范跨多个数据采集域的整个幻灯片图像。我们的主要贡献是：i 一个对抗性架构，它使用单个生成器鉴别器网络跨多个域学习，该网络使用优化感知损失的信息流分支，以及 ii 在训练期间包含一个额外的特征提取网络，它指导转换网络保持所有组织图像中的结构特征完好无损。

Complete identification of complex salt-geometries from inaccurate migrated images using Deep Learning
Authors Ana Paula O.Muller, Jess C. Costa, Clecio R. Bom, Elisangela L. Faria, Matheus Klatt, Gabriel Teixeira, Marcelo P. de Albuquerque, Marcio P. de Albuquerque
从迁移的图像中界定盐包裹体是一项耗时的活动，它依赖于高度人工策划的分析，并且受到解释错误或可用方法的限制的影响。我们建议使用由不准确的速度模型产生的迁移图像，该模型具有合理的沉积速度近似值，但没有盐包裹体，以使用卷积神经网络 CNN 预测正确的盐包裹体形状。我们的方法依赖于地下公共图像收集器将沉积物反射聚焦在零偏移附近，并将盐反射的能量分散到大偏移上。使用合成数据，我们训练了一个 U Net，使用常见的偏移地下图像作为 CNN 的输入通道，并使用正确的盐掩码作为网络输出。该网络学会了以高精度预测含盐掩码，此外，它在应用于以前未引入的合成基准数据集时也表现良好。

Spatially-Preserving Flattening for Location-Aware Classification of Findings in Chest X-Rays
Authors Neha Srivathsa, Razi Mahmood, Tanveer Syeda Mahmood
由于大型标记数据集的可用性，胸部 X 射线已成为近年来蓬勃发展的深度学习研究的焦点。虽然现在可以对异常发现进行分类，但确保它们正确定位仍然具有挑战性，因为这需要识别解剖区域内的异常。用于细粒度异常分类的现有深度学习网络使用在分类前的展平步骤期间丢失位置和空间连续性信息的架构来学习位置特定的发现。在本文中，我们提出了一种新的空间保留深度学习网络，该网络通过在展平过程中对特征图进行自动编码来保留位置和形状信息。然后以端到端的方式训练特征图、自动编码器和分类器，以实现对胸部 X 射线发现的位置感知分类。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com