【AI视野·今日CV 计算机视觉论文速览第234期】Fri, 24 Sep 2021_pairwise emotional relationship recognition in dra-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/120462324

本文汇总了计算机视觉领域的最新研究，包括深度学习框架、多模态表示学习、视频理解、3D重建、物体检测和语义分割等多个方面。这些研究提出了新的算法和模型，如MARMOT、LGD、PRVG和HALO，旨在改进视觉表示、减少计算成本、提高检测和分割的准确性。同时，文章探讨了如何利用强化学习、多模态信息和跨模态一致性来提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 24 Sep 2021
Totally 41 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

MARMOT: A Deep Learning Framework for Constructing Multimodal Representations for Vision-and-Language Tasks
Authors Patrick Y. Wu, Walter R. Mebane Jr
社交媒体上的政治活动为了解政治行为提供了一个数据丰富的窗口，但海量数据意味着几乎所有社交媒体的内容分析都需要数据标记步骤。然而，大多数自动化机器分类方法忽略了发布内容的多模态，专注于文本或图像。最先进的视觉和语言模型无法用于大多数政治科学研究，它们要求所有观察都具有图像和文本，并且需要计算成本高昂的预训练。本文提出了一种新的视觉和语言框架，称为使用模态翻译 MARMOT 的多模态表示。 MARMOT 提出了两个方法论贡献，它可以构建缺失图像或文本的观察表示，并用模态转换代替计算成本高的预训练。在 2016 年美国大选期间报告选举事件的推文的多标签分类中，MARMOT 在 20 个类别中的 19 个类别中的表现优于纯文本分类器。

End-to-End AI-based MRI Reconstruction and Lesion Detection Pipeline for Evaluation of Deep Learning Image Reconstruction
Authors Ruiyang Zhao, Yuxin Zhang, Burhaneddin Yaman, Matthew P. Lungren, Michael S. Hansen
深度学习技术已成为高度加速 MRI 的一种有前途的方法。然而，最近的重建挑战显示了当前深度学习方法的几个缺点，包括即使使用在全局质量指标方面表现良好的模型也会丢失精细的图像细节。在这项研究中，我们提出了一种用于图像重建和病理检测的端到端深度学习框架，该框架能够对深度学习重建质量进行临床评估。该解决方案针对在膝关节 MRI 研究中检测半月板撕裂的用例进行了演示，最终发现使用常见重建方法丢失了精细图像细节，表现为检测半月板撕裂等重要病理的能力降低。

How much "human-like" visual experience do current self-supervised learning algorithms need to achieve human-level object recognition?
Authors A. Emin Orhan
本文解决了一个基本问题，我们当前的自监督视觉表示学习算法相对于人类有多好更具体地说，这些算法需要多少人类喜欢的自然视觉体验才能在复杂、逼真的视觉对象识别中达到人类水平的性能ImageNet 等任务使用缩放实验，在这里我们估计答案大约是一百万年的自然视觉体验，换句话说，比人类的一生长几个数量级。然而，这个估计对一些潜在的假设非常敏感，强调需要进行仔细控制的人体实验。

LGD: Label-guided Self-distillation for Object Detection
Authors Peizhen Zhang, Zijian Kang, Tong Yang, Xiangyu Zhang, Nanning Zheng, Jian Sun
在本文中，我们提出了第一个用于一般物体检测的自蒸馏框架，称为 LGD 标签引导自蒸馏。以前的研究依赖于强大的预训练教师为蒸馏提供指导性知识。但是，这在现实世界场景中可能不可用。相反，我们通过对象之间的内部和内部关系建模来生成有指导意义的知识，只需要学生表示和常规标签。详细地说，我们的框架涉及稀疏标签外观编码、对象间关系自适应和对象内知识映射以获得指导性知识。 LGD 中的模块使用学生检测器进行端到端的训练，并在推理中被丢弃。根据经验，LGD 在各种检测器、数据集和广泛的任务（如实例分割）上获得了不错的结果。例如，在 MS COCO 数据集中，LGD 在 2x 单尺度训练下使用 ResNet 50 改进了 RetinaNet，从 36.2 到 39.0 mAP 2.8。对于更强大的检测器，如 FCOS 和 ResNeXt 101 DCN v2 在 2x 多尺度训练 46.1 下，LGD 达到 47.9 1.8。

Self-supervised Learning for Semi-supervised Temporal Language Grounding
Authors Fan Luo, Shaoxiang Chen, Jingjing Chen, Zuxuan Wu, Yu Gang Jiang
给定文本描述，时间语言基础 TLG 旨在定位未修剪视频中包含指定语义的片段的时间边界。 TLG 本质上是一项具有挑战性的任务，因为它需要对视频内容和文本句子有全面的理解。以前的工作要么在需要大量手动注释的完全监督的设置中解决此任务，要么在无法获得令人满意的性能的弱监督设置中处理此任务。为了在有限的注释下获得良好的性能，我们以半监督的方式处理这个任务，并提出了一个统一的半监督时间语言接地 STLG 框架。 STLG 由两部分组成 1 伪标签生成模块，根据来自教师模型的预测为未标记数据生成自适应即时伪标签 2 具有两个顺序扰动（即时间滞后和时间缩放）的自监督特征学习模块，用于改进通过模态间和模态内对比学习的视频表示。

Semantic Segmentation-assisted Scene Completion for LiDAR Point Clouds
Authors Xuemeng Yang, Hao Zou, Xin Kong, Tianxin Huang, Yong Liu, Wanlong Li, Feng Wen, Hongbo Zhang
户外场景补全是 3D 场景理解中的一个具有挑战性的问题，在智能机器人和自动驾驶中扮演着重要的角色。由于 LiDAR 采集的稀疏性，3D 场景补全和语义分割要复杂得多。由于语义特征可以为完成任务提供约束和语义先验，因此它们之间的关系值得探索。因此，我们提出了一个端到端的语义分割辅助场景补全网络，包括一个 2D 补全分支和一个 3D 语义分割分支。具体来说，网络以原始点云为输入，将来自分割分支的特征分层合并到完成分支以提供语义信息。通过采用 BEV 表示和 3D 稀疏卷积，我们可以在保持有效表达的同时受益于较低的操作数。此外，分割分支的解码器用作辅助，可以在推理阶段丢弃以节省计算消耗。大量实验表明，我们的方法在 SemanticKITTI 数据集上以低延迟实现了具有竞争力的性能。

DeepRare: Generic Unsupervised Visual Attention Models
Authors Phutphalla Kong, Matei Mancas, Bernard Gosselin, Kimtho Po
人类视觉系统在工程领域建模，提供特征工程方法，将对比惊人的异常数据检测到图像中。这些数据对人类来说很有趣，并导致了许多应用。深度学习 DNN 极大地提高了主要基准数据集的算法效率。然而，基于 DNN 的模型是反直觉的，令人惊讶的或不寻常的数据根据定义很难学习，因为它的出现概率很低。实际上，基于 DNN 的模型主要学习自上而下的特征，例如人脸、文本、人物或动物等通常会引起人们注意的特征，但在提取图像中令人惊讶或不寻常的数据方面效率低下。在本文中，我们提出了一种名为 DeepRare2021 DR21 的新视觉注意模型，它利用了 DNN 特征提取的强大功能和特征工程算法的通用性。该算法是基于通用框架的先前版本 DeepRare2019 DR19 的演变。 DR21 1 不需要任何训练并使用默认的 ImageNet 训练，2 即使在 CPU 上也很快，3 在四个非常不同的眼动追踪数据集上进行了测试，表明 DR21 是通用的，并且始终在所有数据集的顶级模型中，并且指标，而没有其他模型表现出这样的规律性和通用性。最后，DR21 4 使用多种网络架构（例如 VGG16 V16、VGG19 V19 和 MobileNetV2 MN2 和 5）进行了测试，尽管使用了基于 DNN 的特征提取器，但它提供了关于图像的哪些部分在不同级别上最令人惊讶的解释和透明度。

Layered Neural Atlases for Consistent Video Editing
Authors Yoni Kasten, Dolev Ofri, Oliver Wang, Tali Dekel
我们提出了一种将输入视频分解或展开为一组分层 2D 图集的方法，每个图集都提供了视频上对象或背景外观的统一表示。对于视频中的每个像素，我们的方法会估计每个图集中其对应的 2D 坐标，从而为我们提供一致的视频参数化以及相关的 alpha 不透明度值。重要的是，我们将我们的地图集设计为可解释和语义化的，这有助于在地图集域中进行简单直观的编辑，所需的手动工作最少。应用于单个 2D 图集或输入视频帧的编辑会自动且一致地映射回原始视频帧，同时保留遮挡、变形和其他复杂场景效果，例如阴影和反射。我们的方法采用基于坐标的多层感知器 MLP 表示，用于映射、图集和 alpha，它们在每个视频的基础上联合优化，使用视频重建和正则化损失的组合。通过纯粹在 2D 中操作，我们的方法不需要任何关于场景几何或相机姿势的先验 3D 知识，并且可以处理复杂的动态现实世界视频。

Hierarchical Memory Matching Network for Video Object Segmentation
Authors Hongje Seong, Seoung Wug Oh, Joon Young Lee, Seongwon Lee, Suhyeon Lee, Euntai Kim
我们提出了用于半监督视频对象分割的分层内存匹配网络 HMMN。基于最近的基于内存的方法 33，我们提出了两个先进的内存读取模块，使我们能够在利用时间平滑性的同时以多个尺度执行内存读取。我们首先提出了一个内核引导的内存匹配模块，它取代了以前基于内存的方法中普遍采用的非本地密集内存读取。该模块在内存读取中强加了时间平滑性约束，从而实现了准确的内存检索。更重要的是，我们引入了一种分层内存匹配方案，并提出了一个前 k 个引导内存匹配模块，其中细粒度的内存读取由粗粒度的内存读取引导。通过该模块，我们可以高效地在多个尺度上执行内存读取，并利用高级语义和低级细粒度内存功能来预测详细的对象掩码。我们的网络在 DAVIS 2016 2017 90.8 和 84.7 和 YouTube VOS 2018 2019 82.6 和 82.5 的验证集以及 DAVIS 2017 78.6 的测试开发集上实现了最先进的性能。

A Skeleton-Driven Neural Occupancy Representation for Articulated Hands
Authors Korrawe Karunratanakul, Adrian Spurr, Zicong Fan, Otmar Hilliges, Siyu Tang
我们提出了 Hand ArticuLated Occupancy HALO，这是一种新型的铰接手表示，它结合了 3D 关键点和神经隐式表面的优点，可用于端到端的可训练架构。与现有的统计参数手模型不同，例如MANO ，HALO 直接利用 3D 关节骨架作为输入，并产生表示姿势手表面的神经占用体积。 HALO 的主要优点是 1 它由 3D 关键点驱动，在准确性方面具有优势，并且比潜在手部模型参数更容易学习神经网络 2 它提供了姿势手的可微体积占用表示 3 它可以端到端地训练，允许在手表面上制定有利于 3D 关键点学习的损失。我们展示了 HALO 对抓握 3D 对象的手的有条件生成任务的适用性。

Scene Graph Generation for Better Image Captioning?
Authors Maximilian Mozes, Martin Schmitt, Vladimir Golkov, Hinrich Sch tze, Daniel Cremers
我们通过提出一个利用检测到的对象和自动生成的视觉关系来描述自然语言图像的模型，研究将视觉关系纳入监督图像标题生成任务。为此，我们首先通过识别单个对象以及它们之间的视觉关系从原始图像像素生成场景图。这个场景图然后作为我们图到文本模型的输入，生成最终的标题。与之前的方法相比，我们的模型因此明确地对图像中的对象和视觉关系的检测进行建模。在我们的实验中，我们从 Visual Genome 和 MS COCO 的交集构建了一个新数据集，其中包含具有相应的金色场景图和人工编写的标题的图像。

Cross Attention-guided Dense Network for Images Fusion
Authors Zhengwen Shen, Jun Wang, Zaiyu Pan, Yulian Li, Jiangyu Wang
近年来，基于深度学习的计算机视觉中的各种应用取得了实质性进展，深度学习已被广泛用于图像融合并显示出足够的性能。然而，由于对不同源图像的空间对应建模能力有限，现有的无监督图像融合模型如何提取合适的特征并实现自适应均衡融合仍然是一个很大的挑战。在本文中，我们提出了一种新颖的交叉注意力引导图像融合网络，它是用于多模态图像融合、多曝光图像融合和多焦点图像融合的统一无监督框架。与现有的自注意力模块不同，我们的交叉注意力模块专注于对不同源图像之间的互相关进行建模。使用所提出的交叉注意模块作为核心块，构建了一个密集连接的交叉注意引导网络来动态学习空间对应关系，从而更好地对齐不同输入图像的重要细节。同时，还设计了一个辅助分支来对远程信息进行建模，并附加一个合并网络来最终重建融合图像。

Recent Advances of Continual Learning in Computer Vision: An Overview
Authors Haoxuan Qu, Hossein Rahmani, Li Xu, Bryan Williams, Jun Liu
与一次性提供所有训练数据的批量学习相反，持续学习代表了一系列方法，这些方法积累知识并使用按顺序可用的数据连续学习。类似于人类学习过程，具有学习、融合和积累不同时间步长新知识的能力，持续学习被认为具有很高的现实意义。因此，已经在各种人工智能任务中研究了持续学习。在本文中，我们全面回顾了计算机视觉中持续学习的最新进展。特别是，作品按其代表性技术分组，包括正则化、知识蒸馏、记忆、生成重放、参数隔离以及上述技术的组合。对于这些技术的每一类，都介绍了其在计算机视觉中的特点和应用。

PRANet: Point Cloud Registration with an Artificial Agent
Authors Lisa Tse, Abdoul Aziz Amadou, Axen Georget, Ahmet Tuysuzoglu
点云配准在众多计算机视觉任务中起着至关重要的作用，例如姿态估计和 3D 定位。最近，大量的深度学习方法被制定出来，旨在解决这个问题。这些方法中的大多数找到点或特征的对应关系，从中计算变换。我们给出了不同的观点，并将注册问题构建为马尔可夫决策过程。问题不是直接搜索变换，而是找到与该变换等效的一系列平移和旋转动作。为此，我们提出了一种使用深度监督学习端到端训练的人工代理。与传统的强化学习技术相比，观察结果是 i.i.d 采样的。因此不需要经验回放缓冲区，从而使训练过程更加简化。

Towards Generalized and Incremental Few-Shot Object Detection
Authors Yiting Li, Haiyue Zhu, Jun Ma, Chek Sing Teo, Cheng Xiang, Prahlad Vadakkepat, Tong Heng Lee
非常希望现实世界的对象检测配备学习可扩展性，可以逐步扩大其检测类别。此外，这种仅从少量带注释的训练样本中学习进一步增加了目标检测器的灵活性，这在自动驾驶、机器人技术等许多应用中备受期待。然而，这种具有很少镜头训练样本的顺序学习场景通常会导致灾难性的遗忘和戏剧性的过度拟合。在本文中，为了解决上述增量小镜头学习问题，提出了一种新颖的增量小镜头目标检测 iFSOD 方法，以实现从小镜头样本中进行有效的连续学习。具体而言，提出了一种双分支框架 DBF 来解耦基础类和新的少镜头类的特征表示，从而同时促进旧知识保留和新类适应。此外，执行渐进式模型更新规则以在适应顺序新类时有效地保留旧类的长期记忆。此外，提出了一个任务间类分离损失来扩展新类的决策区域，以更好地区分特征。

Multi-resolution deep learning pipeline for dense large scale point clouds
Authors Thomas Richard, Florent Dupont, Guillaume Lavoue
3D 传感器的最新发展允许获取大规模场景的极其密集的 3D 点云。处理如此大的点云的主要挑战仍然是数据的大小，这会导致昂贵的计算和内存成本。在这种情况下，全分辨率云尤其难以处理，它带来的细节很少被利用。尽管细粒度的细节对于检测小物体很重要，但它们可以改变大型结构部件的局部几何形状并误导深度学习网络。在本文中，我们引入了一种新的通用深度学习管道，以利用大规模点云的全部精度，但仅适用于需要细节的对象。我们方法的核心思想是将过程拆分为多个子网络，这些子网络以不同的分辨率运行，并且每个子网络都具有要检索的特定类。

Deep Learning Strategies for Industrial Surface Defect Detection Systems
Authors Dominik Martin, Simon Heinzel, Johannes Kunze von Bischhoffshausen, Niklas K hl
深度学习方法已被证明在图像处理的各个领域都优于传统的计算机视觉方法。然而，由于训练数据量不足、数据生成过程昂贵、尺寸小、表面缺陷很少发生，深度学习在工业表面缺陷检测系统中的应用具有挑战性。从文献和聚合物产品制造用例中，我们确定了反映上述挑战的设计要求。针对这些问题，我们对深度学习研究提供的设计原则和功能进行了概念化。最后，我们以基于工业表面缺陷检测用例的可操作指南和策略的形式实例化和评估获得的设计知识。

End-to-End Dense Video Grounding via Parallel Regression
Authors Fengyuan Shi, Limin Wang, Weilin Huang
视频基础旨在在给定语言查询的情况下定位未修剪视频中相应的视频时刻。现有方法通常以间接方式解决此任务，将其转换为提议和匹配或融合和检测问题。解决这些替代问题通常需要在训练过程中进行复杂的标签分配，并手工去除几乎重复的结果。同时，现有的工作通常专注于以单个句子作为输入的稀疏视频基础，由于其描述不明确，可能会导致定位不明确。在本文中，我们通过以段落作为输入同时定位多个时刻来解决密集视频接地的新问题。从视频基础作为语言条件回归的角度来看，我们通过重新利用类似于 Transformer 的架构 PRVG 来呈现端到端的并行解码范式。我们 PRVG 的关键设计是使用语言作为查询，并根据语言调制的视觉表示直接回归矩边界。由于其设计简单，我们的 PRVG 框架可以应用于不同的测试方案稀疏或密集的基础，并允许在没有任何后处理技术的情况下进行有效推理。此外，我们设计了一个强大的建议级别注意力损失来指导 PRVG 的训练，它对时刻持续时间是不变的，并有助于模型收敛。我们对 ActivityNet Captions 和 TACoS 的两个视频接地基准进行了实验，证明我们的 PRVG 可以显着优于以前的方法。

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark
Authors Xun Gao, Yin Zhao, Jie Zhang, Longjun Cai
识别人的情绪状态是视频理解中一项基本但具有挑战性的任务。在本文中，我们提出了该领域的一项新任务，名为 Pairwise Emotional Relationship Recognition PERR。此任务旨在识别给定视频剪辑中两个互动角色之间的情感关系。它不同于传统的情感和社会关系识别任务。包括角色外观、行为、面部表情、对话、背景音乐以及字幕在内的各种信息对最终结果的贡献不同，这使得任务更具挑战性，但在开发更高级的多模态模型时更有意义。为了便于完成这项任务，我们基于戏剧和电影开发了一个名为交互 ERATO 的情感关系的新数据集。 ERATO 是一个用于 PERR 任务的大规模多模态数据集，它有 31,182 个视频剪辑，持续约 203 个视频小时。与现有数据集不同，ERATO 包含以交互为中心的视频，具有多镜头、不同的视频长度和多种形式，包括视觉、音频和文本。作为次要贡献，我们提出了一个由同步模态时间注意 SMTA 单元组成的基线模型，以融合 PERR 任务的多模态信息。与其他流行的注意力机制相比，我们提出的 SMTA 可以稳定地将性能提高约 1 。

Towards Fine-grained 3D Face Dense Registration: An Optimal Dividing and Diffusing Method
Authors Zhenfeng Fan, Silong Peng, Shihong Xia
3D 人脸之间的密集顶点到顶点对应是 3D 2D 人脸分析的一个基本且具有挑战性的问题。虽然稀疏地标具有解剖学上的真实对应，但大多数面部区域上的密集顶点对应是未知的。从这个角度来看，当前的文献通常会产生合理但多样的解决方案，这些解决方案偏离了最优到 3D 人脸密集配准问题。在本文中，我们通过维度退化问题重新审视密集配准，即直线的比例分割，并采用迭代划分和扩散方法来唯一地达到最终解决方案。然后，通过制定用于划分的局部配准问题和用于扩散的线性最小二乘问题，以及对固定特征的约束，将该方法扩展到 3D 表面。在此基础上，我们进一步提出了一种多分辨率算法来加速计算过程。所提出的方法与一种新的局部缩放度量相关联，我们将物理意义说明为 3D 面部形状的局部细胞的平滑重排。在公共数据集上的大量实验证明了所提出方法在各个方面的有效性。通常，所提出的方法导致用于细粒度 3D 人脸密集配准的连贯局部配准和优雅的网格例程，这显着有益于许多下游应用。它也可以应用于不限于人脸的其他格式数据的密集对应。

OH-Former: Omni-Relational High-Order Transformer for Person Re-Identification
Authors Xianing Chen, Jialang Xu, Jiale Xu, Shenghua Gao
Transformers 在许多视觉任务中都表现出更好的性能。然而，对于行人重新识别 ReID 的任务，vanilla Transformers 在高阶特征关系上留下了丰富的上下文，并且会劣化局部特征细节，由于行人的剧烈变化，这些细节是不够的。在这项工作中，我们提出了一个 Omni Relational High Order Transformer OH 模型来为 ReID 建模全向关系特征。首先，为了加强视觉表示的能力，我们不是根据每个空间位置的查询和孤立键对获得注意力矩阵，而是进一步为非局部机制的高阶统计信息建模。我们使用先验混合机制共享每个订单对应层中的注意力权重，以降低计算成本。然后，提出了基于卷积的局部关系感知模块来提取局部关系和二维位置信息。

A Novel Factor Graph-Based Optimization Technique for Stereo Correspondence Estimation
Authors Hanieh Shabanian, Madhusudhanan Balasubramanian
多个视图之间的密集差异对于基于场景与视图或相机之间的几何关系估计场景的 3D 架构至关重要。具有更大程度的异质纹理、多个视图之间不同的场景照明以及具有遮挡对象的场景会影响估计视差的准确性。用于视差估计的基于马尔可夫随机场 MRF 的方法使用观测之间和视差估计之间的空间依赖性来解决这些限制。然而，这些方法受到空间固定和较小的邻域系统或派系的限制。在这项工作中，我们提出了一种新的基于因子图的概率图模型用于视差估计，该模型允许基于局部场景特征确定更大的空间可变邻域结构。我们使用 Middlebury 基准立体数据集和 Middlebury 评估数据集 3.0 版评估了我们的方法，并将其性能与最近最先进的视差估计算法进行了比较。与最近的非学习和基于学习的视差估计算法相比，新的基于因子图的方法提供了更准确的视差估计。

Learning to Downsample for Segmentation of Ultra-High Resolution Images
Authors Chen Jin, Ryutaro Tanno, Thomy Mertzanidou, Eleftheria Panagiotaki, Daniel C. Alexander
使用深度学习对超高分辨率图像进行分割具有挑战性，因为它们的尺寸巨大，通常有数百万甚至数十亿像素。典型的解决方案是对图像进行大幅度的统一下采样以满足内存限制，通过在所有空间位置以相同的密度进行采样，隐含地假设所有像素同样重要。然而，这种假设是不正确的，并且会损害已在标准尺寸图像上证明强大的深度学习技术的性能。例如使用均匀下采样，参见图 1 中的绿色框区域，当树木和建筑物被过采样时，骑手和自行车没有足够的对应样本，这导致对低分辨率下采样图像的分割预测产生负面影响。在这项工作中，我们表明学习空间变化的下采样策略与分割相结合，在以有限的计算预算分割大图像方面具有优势。图 1 显示我们的方法调整了不同位置的采样密度，以便从小的重要区域收集更多的样本，而从其他区域收集的样本更少，这反过来又会导致更好的分割精度。

A two-step machine learning approach for crop disease detection: an application of GAN and UAV technology
Authors Aaditya Prasad 1 , Nikhil Mehta 1 , Matthew Horak 2 , Wan D. Bae 3 1 Tesla STEM High School, 2 Lockheed Martin Corporation, 3 Seattle University
自动化植物诊断是一项有望大幅提高农业成本效率的技术。然而，多种问题降低了无人机的有效性，包括分辨率和速度之间的反比关系以及缺乏足够的标记训练数据。本文提出了一种两步机器学习方法，该方法按顺序分析低保真和高保真图像，同时保持效率和准确性。两个数据生成器还用于最小化高保真数据集中的类不平衡，并生成代表无人机图像的低保真数据。应用程序和方法的分析是在高保真苹果树图像数据库上进行的，这些图像因类不平衡而损坏。该应用程序首先使用生成网络生成高保真数据，然后使用这些新数据与原始高保真数据一起生成低保真图像。机器学习标识符识别植物并将它们标记为可能患病或未患病。然后给机器学习分类器提供可能患病的植物图像，并返回这些植物的实际诊断结果。结果显示高保真系统的准确率为 96.3，我们的低保真系统的置信水平为 75.5。

Towards practical object detection for weed spraying in precision agriculture
Authors Adrian Salazar Gomez, Madeleine Darbyshire, Junfeng Gao, Elizabeth I Sklar, Simon Parsons
在过去的 4 到 5 年间，更小、更快的处理器和更便宜的数字存储机制的发展极大地增加了在广泛的实际环境中集成智能技术以解决广泛任务的机会。此类技术的一个令人兴奋的应用领域是精准农业，其中将机载机器视觉与数据驱动的驱动相集成的能力意味着农民可以在单个植物而非整个田地层面做出作物护理和收获的决策。这在经济和环境上都是有意义的。但是，此功能的关键驱动因素是快速且强大的机器视觉，通常由机器学习 ML 解决方案驱动并依赖于准确的建模。一个关键的挑战是，大部分基于机器学习的视觉研究只考虑评估对象检测准确性的指标，而没有评估实际因素。

Cross-Modal Coherence for Text-to-Image Retrieval
Authors Malihe Alikhani, Fangda Han, Hareesh Ravi, Mubbasir Kapadia, Vladimir Pavlovic, Matthew Stone
常见的图像文本联合理解技术假定图像和相关文本可以普遍地由单个隐式模型表征。然而，共同出现的图像和文本可以以不同的方式相关联，并且对其进行显式建模可以提高当前联合理解模型的性能。在本文中，我们为文本到图像检索任务训练了一个跨模态相干模型。我们的分析表明，使用图像文本连贯关系训练的模型可以比连贯性不可知模型更频繁地检索最初与目标文本配对的图像。我们还通过人工评估表明，所提出的相干感知模型检索到的图像在很大程度上优于相干不可知基线。

A Benchmark Comparison of Visual Place Recognition Techniques for Resource-Constrained Embedded Platforms
Authors Rose Power, Mubariz Zaffar, Bruno Ferrarini, Michael Milford, Klaus McDonald Maier, Shoaib Ehsan
视觉位置识别 VPR 在过去 15 到 20 年中一直是重要研究的主题。 VPR 是自主导航的一项基本任务，因为它可以在环境中实现自我定位。尽管机器人通常配备资源受限的硬件，但 VPR 技术的计算要求和影响却很少受到关注。在这项工作中，我们对公共数据集上的许多最先进的 VPR 技术进行了以硬件为中心的基准评估。除了商用台式机和笔记本电脑外，我们还考虑了流行的单板计算机，包括 ODroid、UP 和 Raspberry Pi 3。我们基于几个关键指标进行分析，包括位置匹配精度、图像编码时间、描述符匹配时间和内存需求。解决的关键问题包括 1 VPR 技术的性能准确性如何随处理器架构而变化 2 不同 VPR 技术和嵌入式平台的功耗如何变化 3 与当今的嵌入式平台存储相比，描述符大小的重要性如何 4

An Efficient and Scalable Collection of Fly-inspired Voting Units for Visual Place Recognition in Changing Environments
Authors Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald Maier, Shoaib Ehsan
目前正在利用基于深度学习的方法实现最先进的视觉位置识别性能。尽管最近在设计基于轻量级卷积神经网络的模型方面做出了努力，但对于大多数硬件受限的机器人应用来说，这些模型仍然过于昂贵。低开销 VPR 技术不仅可以使平台配备低端、廉价的硬件，还可以减少更强大系统上的计算，允许将这些资源分配给其他导航任务。在这项工作中，我们的目标是提供一种极其紧凑和高效的算法，同时实现对外观变化和小视角变化的最先进的鲁棒性。我们的第一个贡献是 DrosoNet，这是一个非常紧凑的模型，其灵感来自果蝇 Drosophyla melanogaster 的气味处理能力。我们的第二个也是主要的贡献是一种投票机制，与单个分类器相比，它利用多个小而高效的分类器来实现更健壮和一致的 VPR。我们使用 DrosoNet 作为投票机制的基线分类器，并在五个基准数据集上评估我们的模型，评估中度到极端的外观变化和小到中度的视点变化。

Learning Contrastive Representation for Semantic Correspondence
Authors Taihong Xiao, Sifei Liu, Shalini De Mello, Zhiding Yu, Jan Kautz, Ming Hsuan Yang
语义相关图像之间的密集对应已被广泛研究，但仍面临两个挑战：1 即使对于同一类别的对象，外观、尺度和姿势也存在较大变化，2 标记像素级密集对应是劳动密集型的，并且无法缩放。大多数现有方法专注于使用完全监督的 ImageNet 预训练网络设计各种匹配方法。另一方面，虽然提出了各种自监督方法来明确测量图像级别的相似性，但与像素级别的对应匹配仍在探索中。在这项工作中，我们提出了一种用于语义匹配的多级对比学习方法，该方法不依赖于任何 ImageNet 预训练模型。我们表明，图像级对比学习是鼓励卷积特征找到相似对象之间对应关系的关键组成部分，而通过在中间特征级别调整跨实例循环一致性可以进一步提高性能。在 PF PASCAL、PF WILLOW 和 SPair 71k 基准数据集上的实验结果表明，我们的方法与最先进的方法相比表现良好。

T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression
Authors Arash Amini, Arul Selvam Periyasamy, Sven Behnke
6D 姿态估计是预测给定输入图像中物体的平移和方向的任务，这是许多机器人和增强现实应用的关键先决条件。最近，配备多头自注意力机制的 Transformer 网络架构正在出现，以在许多计算机视觉任务中实现最先进的结果。 DETR 是一种基于 Transformer 的模型，将目标检测制定为一个集合预测问题，并在没有标准组件（如兴趣区域池化、非最大抑制和边界框建议）的情况下取得了令人印象深刻的结果。在这项工作中，我们提出了 T6D Direct，这是一种实时单级直接方法，具有基于 DETR 的基于转换器的架构，用于执行 6D 多对象姿态直接估计。我们评估了我们的方法在 YCB 视频数据集上的性能。

Leveraging distributed contact force measurements for slip detection: a physics-based approach enabled by a data-driven tactile sensor
Authors Pietro Griffa, Carmelo Sferrazza, Raffaello D Andrea
抓取物理特性未知的物体仍然是机器人技术中的一大挑战。大多数解决方案完全依靠视觉数据来规划最佳抓取策略。然而，为了匹配人类的能力并能够可靠地拾取和握持未知物体，在机器人系统中集成人工触觉至关重要。本文描述了一种基于新模型的滑动检测管道，它可以实时预测可能的抓握失败并发出抓握力的必要增加信号。因此，滑动检测器不依赖于手动收集的数据，而是利用物理学来概括不同的任务。为了评估该方法，将准确估计分布力的最先进的基于视觉的触觉传感器集成到由六自由度协作机器人和两指抓手组成的抓取装置中。结果表明，该系统可以在操纵不同形状、材料和重量的物体时可靠地预测滑移。

Improving Tuberculosis (TB) Prediction using Synthetically Generated Computed Tomography (CT) Images
Authors Ashia Lewis, Evanjelin Mahmoodi, Yuyue Zhou, Megan Coffee, Elena Sizikova
在放射图像上评估传染病过程是医学图像分析中一项重要且具有挑战性的任务。肺部感染通常可以通过计算机断层扫描 CT 扫描进行最佳成像和评估，这在资源匮乏的环境中通常不可用，并且危重患者难以获得。另一方面，X 射线是一种不同类型的成像程序，价格低廉，通常可在床边使用，而且使用范围更广，但提供更简单的二维图像。我们表明，通过学习从 X 射线合成 CT 图像的模型，我们可以提高自动疾病分类的准确性，并为临床医生提供对肺部疾病过程的不同看法。具体来说，我们研究了结核病，这是一种致命的细菌传染病，主要影响肺部，但也影响其他器官系统。

Revisit Geophysical Imaging in A New View of Physics-informed Generative Adversarial Learning
Authors Fangshu Yang, Jianwei Ma
地震全波形反演 FWI 是一种强大的地球物理成像技术，它通过迭代最小化模拟和观察到的地震图之间的不匹配来生成高分辨率的地下模型。不幸的是，具有最小二乘函数的传统 FWI 存在许多缺点，例如局部最小值问题和显式梯度的计算。对于受污染的测量或糟糕的起始模型，这尤其具有挑战性。最近依赖偏微分方程和神经网络的工作显示出二维 FWI 的良好性能。受生成对抗网络竞争学习的启发，我们提出了一种无监督学习范式，该范式将波动方程与判别网络相结合，以准确估计分布意义上的物理一致性模型。我们的框架不需要标记的训练数据，也不需要网络的预训练，可以灵活地以最少的用户交互实现多参数反演。所提出的方法忠实地恢复了优于经典算法的众所周知的合成模型。

The Hilti SLAM Challenge Dataset
Authors Michael Helmberger, Kristian Morin, Nitish Kumar, Danwei Wang, Yufeng Yue, Giovanni Cioffi, Davide Scaramuzza
准确和稳健的姿态估计是自主系统导航、映射和执行任务的基本能力。特别是，由于稀疏性、光照条件变化和动态对象，施工环境对同时定位和映射 SLAM 算法提出了具有挑战性的问题。当前 SLAM 的学术研究侧重于开发更准确和稳健的算法，例如通过融合不同的传感器模式。为了帮助这项研究，我们提出了一个新的数据集，即喜利得 SLAM 挑战数据集。用于收集此数据集的传感器平台包含许多经过严格校准的视觉、激光雷达和惯性传感器。所有数据都在时间上对齐，以支持精确的多传感器融合。每个数据集都包含准确的地面实况，以允许直接测试 SLAM 结果。提供了来自各种环境中十二个数据集的原始数据以及内在和外在传感器校准数据。

Predicting the Timing of Camera Movements From the Kinematics of Instruments in Robotic-Assisted Surgery Using Artificial Neural Networks
Authors Hanna Kossowsky, Ilana Nisky
机器人辅助手术对外科医生和患者都有好处，但是，外科医生经常需要调整内窥镜摄像头以获得良好的视角。同时控制相机和手术器械是不可能的，因此，这些相机调整反复中断手术。自主摄像头控制可以帮助克服这一挑战，但大多数现有系统都是被动的，例如，让摄像头跟随手术器械。我们提出了一种预测方法，用于使用人工神经网络预测何时会发生相机移动。我们使用了手术器械的运动学数据，这些数据是在猪模型的机器人辅助手术训练期间记录的。我们将数据分成多个段，并将每个段标记为紧接在相机移动之前的段，或不紧跟的段。由于大的类不平衡，我们训练了一组网络，每个网络都在训练数据的平衡子集上。我们发现仪器的运动学数据可用于预测摄像机何时会发生移动，并评估不同片段持续时间和集合大小的性能。我们还研究了可以提前多少时间预测即将发生的相机运动，并发现在它们发生之前 0.25、0.5 和 1 秒预测相机运动相对于即将发生的相机运动的预测实现了 98、94 和 84 的准确度。

Clustering performance analysis using new correlation based cluster validity indices
Authors Nathakhun Wiroonsri
有多种聚类有效性度量可用于评估聚类结果。使用这些措施的主要目标之一是寻找最佳的未知簇数。一些措施适用于具有不同密度、大小和形状的集群。然而，这些有效性度量所共有的弱点之一是它们有时只提供一个明确的最佳聚类数。这个数字实际上是未知的，并且用户可能希望根据不同的应用程序进行选择的潜在次优选项可能不止一个。我们基于一对数据点之间的实际距离与两个点所在集群的质心距离之间的相关性开发了两个新的集群有效性指数。我们提出的指数在不同数量的集群上不断产生几个峰值，克服了这个弱点之前说过。此外，引入的相关性还可用于评估所选聚类结果的质量。

Adversarial Transfer Attacks With Unknown Data and Class Overlap
Authors Luke E. Richards, Andr Nguyen, Ryan Capps, Steven Forsythe, Cynthia Matuszek, Edward Raff
将对抗性攻击从一个模型（代理）转移到另一个模型（受害者）的能力一直是机器学习 ML 社区关注的问题。成功规避看不见的模型的能力代表了实施攻击的难易程度。在这项工作中，我们注意到，正如所研究的那样，当前的传输攻击研究对攻击者具有不切实际的优势，攻击者具有与受害者完全相同的训练数据。我们提出了第一个转移对抗性攻击的研究，重点是在不完美的设置下攻击者和受害者可用的数据，而不询问受害者，其中使用的确切数据或每个模型学习的类存在一定程度的重叠。此威胁模型与医学、恶意软件和其他应用程序相关。在这种新的威胁模型下，攻击成功率与人们预期的数据或类别重叠无关，而是随数据集而变化。这使得攻击者和防御者难以相互推理，并有助于更广泛地研究模型稳健性和安全性。

Rational Polynomial Camera Model Warping for Deep Learning Based Satellite Multi-View Stereo Matching
Authors Jian Gao, Jin Liu, Shunping Ji
卫星多视图立体 MVS 图像特别适用于大规模地球表面重建。不同于近景和航拍相机常用的透视相机模型针孔模型，三次有理多项式相机RPC模型是推扫式线阵卫星相机的主流模型。然而，流行的基于学习的 MVS 方法中使用的单应性扭曲仅适用于针孔相机。为了将基于 SOTA 学习的 MVS 技术应用于大规模地球表面重建的卫星 MVS 任务，应考虑 RPC 翘曲。在这项工作中，我们首次提出了一个严格的 RPC 变形模块。有理多项式系数被记录为一个张量，RPC 翘曲被表述为一系列张量变换。基于RPC扭曲，我们提出了基于深度学习的卫星MVS SatMVS框架，用于大规模和宽深度范围的地球表面重建。我们还介绍了一个由 519 5120 乘 5120 张图像组成的大规模卫星图像数据集，我们称之为 TLC SatMVS 数据集。卫星图像是从三行相机 TLC 获取的，该 TLC 可同时捕获三视图图像，对现有的具有单扫描线图像的开源 WorldView 3 数据集形成了有价值的补充。实验表明，与针孔拟合方法和传统 MVS 方法相比，所提出的 RPC 变形模块和 SatMVS 框架可以实现更高的重建精度。

Unseen Object Amodal Instance Segmentation via Hierarchical Occlusion Modeling
Authors Seunghyeok Back, Joosoon Lee, Taewon Kim, Sangjun Noh, Raeyoung Kang, Seongho Bak, Kyoobin Lee
对于非结构化环境中的机器人系统，对看不见的对象进行实例感知分割是必不可少的。尽管以前的工作取得了令人鼓舞的结果，但它们仅限于分割看不见的物体的唯一可见区域。对于杂乱场景中的机器人操作，需要非模态感知来处理其他物体后面的遮挡物体。本文解决了 Unseen Object Amodal Instance Segmentation UOAIS，以检测 1 个可见掩码、2 个 amodal 掩码和 3 个看不见的对象实例上的遮挡。为此，我们提出了一种分层遮挡建模 HOM 方案，旨在通过将层次分配给特征融合和预测顺序来推理遮挡。我们在三个基准桌面、室内和垃圾箱环境中评估了我们的方法，并实现了最先进的 SOTA 性能。

The CAMELS Multifield Dataset: Learning the Universe's Fundamental Parameters with Artificial Intelligence
Authors Francisco Villaescusa Navarro, Shy Genel, Daniel Angles Alcazar, Leander Thiele, Romeel Dave, Desika Narayanan, Andrina Nicola, Yin Li, Pablo Villanueva Domingo, Benjamin Wandelt, David N. Spergel, Rachel S. Somerville, Jose Manuel Zorrilla Matilla, Faizan G. Mohammad, Sultan Hassan, Helen Shao, Digvijay Wadekar, Michael Eickenberg, Kaze W.K. Wong, Gabriella Contardo, Yongseok Jo, Emily Moser, Erwin T. Lau, Luis Fernando Machado Poletti Valle, Lucia A. Perez, Daisuke Nagai, Nicholas Battaglia, Mark Vogelsberger
我们通过机器学习模拟 CAMELS 多场数据集 CMD 展示了宇宙学和天体物理学，该数据集包含数十万张 2D 地图和 3D 网格，其中包含来自 2000 个不同模拟宇宙在多个宇宙时间的许多不同性质的宇宙气体、暗物质和恒星. 2D 地图和 3D 网格代表了跨越 1 亿光年的宇宙区域，并且是从 CAMELS 项目的数千个最先进的流体动力学和重力仅 N 体模拟中生成的。 CMD 旨在训练机器学习模型，是同类数据中最大的数据集，包含超过 70 TB 的数据。在本文中，我们详细描述了 CMD 并概述了它的一些应用。我们将注意力集中在一个这样的任务上，参数推理，将我们面临的问题表述为对社区的挑战。

Mixed-supervised segmentation: Confidence maximization helps knowledge distillation
Authors Bingyuan Liu, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz
尽管在广泛的医学图像分割任务中取得了有希望的结果，但深度神经网络需要具有像素级注释的大型训练数据集。获取这些精选的数据集是一个繁琐的过程，这限制了在注释图像稀缺的场景中的应用。混合监督是减轻这一障碍的有吸引力的替代方案，其中只有一小部分数据包含完整的像素级注释，而其他图像的监督形式较弱。在这项工作中，我们提出了一种双分支架构，其中上层教师接受强注释，而底层学生由有限监督驱动并由上层指导。结合标记像素上的标准交叉熵损失，我们的新公式集成了两个重要的术语，即在较少监督的图像上定义的香农熵损失，这鼓励了底部分支中的自信学生预测和 ii Kullback Leibler KL 散度项，它转移将强监督分支的知识转移到较少监督分支，并引导熵学生置信项避免琐碎的解决方案。我们表明，熵和 KL 散度之间的协同作用可以显着提高性能。我们还讨论了香农熵最小化和标准伪掩码生成之间的有趣联系，并认为前者应该优于后者，以利用来自未标记像素的信息。两个公开可用数据集的定量和定性结果表明，我们的方法明显优于混合监督框架内的其他语义分割策略，以及最近的半监督方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页