【AI视野·今日CV 计算机视觉论文速览 第241期】Wed, 1 Dec 2021

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 1 Dec 2021 (showing first 100 of 112 entries)
Totally 100 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Unsupervised Domain Adaptation: A Reality Check
Authors Kevin Musgrave, Serge Belongie, Ser Nam Lim
近年来,人们对无监督域自适应 UDA 的兴趣激增,产生了大量新算法。然而,正如在快速移动领域中的情况一样,基线算法没有得到应有的测试。此外,很少有人关注验证方法,即在没有目标域标签的情况下估计模型准确性的方法。尽管验证方法是任何 UDA 训练 val 管道的关键组成部分,但这仍然存在。在本文中,我们通过大规模实验表明 1 在 oracle 设置中,UDA 算法之间的准确性差异比以前认为的要小,2 最先进的验证方法与准确性没有很好的相关性,3 UDA 算法之间的差异

AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
Authors Lingchen Meng, Hengduo Li, Bor Chun Chen, Shiyi Lan, Zuxuan Wu, Yu Gang Jiang, Ser Nam Lim
视觉变换器建立在自我注意机制之上,最近在各种视觉任务中表现出卓越的性能。在实现卓越性能的同时,它们仍然需要相对密集的计算成本,随着补丁、自注意力头和转换器块数量的增加,计算成本会急剧增加。在本文中,我们认为由于图像之间的巨大差异,它们对补丁之间的长程依赖关系建模的需求不同。为此,我们引入了 AdaViT,这是一个自适应计算框架,它学习导出使用策略,在每个输入的基础上,在整个主干中使用哪些补丁、自注意力头和转换器块,旨在以最小的代价提高视觉转换器的推理效率。图像识别准确率下降。以端到端的方式与变压器主干联合优化,轻量级决策网络连接到主干,以即时产生决策。 ImageNet 上的大量实验表明,与最先进的视觉变换器相比,我们的方法在效率上提高了 2 倍以上,准确度仅下降了 0.8,在不同的计算预算条件下实现了良好的效率准确度权衡。

ATS: Adaptive Token Sampling For Efficient Vision Transformers
Authors Mohsen Fayyaz, Soroush Abbasi Kouhpayegani, Farnoush Rezaei Jafari, Eric Sommerlade, Hamid Reza Vaezi Joze, Hamed Pirsiavash, Juergen Gall
虽然最先进的视觉变换器模型在图像分类方面取得了可喜的结果,但它们的计算成本非常高,并且需要许多 GFLOP。尽管可以通过减少网络中的标记数量来减少视觉转换器的 GFLOP,但没有针对所有输入图像的最佳设置。因此,在这项工作中,我们引入了一个可微的无参数自适应令牌采样 ATS 模块,该模块可以插入任何现有的视觉转换器架构。 ATS 通过对重要标记进行评分和自适应采样来增强视觉变换器的能力。因此,令牌的数量不再是静态的,而是因每个输入图像而异。通过将 ATS 作为电流转换器块中的附加层集成,我们可以将它们转换为具有自适应数量令牌的更高效的视觉转换器。由于 ATS 是一个无参数模块,它可以作为即插即用模块添加到现成的预训练视觉转换器中,从而无需任何额外培训即可减少其 GFLOP。但是,由于其可微分设计,还可以训练配备 ATS 的视觉转换器。我们通过将模块添加到多个最先进的视觉转换器来评估我们在 ImageNet 数据集上的模块。

HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
Authors Yuval Alaluf, Omer Tov, Ron Mokady, Rinon Gal, Amit H. Bermano
将真实图像倒置到 StyleGAN 的潜在空间中是一个很好研究的问题。然而,将现有方法应用于现实世界场景仍然是一个开放的挑战,因为重建和可编辑性潜在空间区域之间的固有权衡可以准确地表示真实图像,通常会遭受语义控制降级的影响。最近的工作建议通过微调生成器将目标图像添加到潜在空间中表现良好的可编辑区域来减轻这种权衡。虽然很有前途,但这种微调方案对于普遍使用是不切实际的,因为它需要对每个新图像进行漫长的训练阶段。在这项工作中,我们将这种方法引入基于编码器的反演领域。我们提出了 HyperStyle,这是一种超网络,它学习调节 StyleGAN 的权重,以在潜在空间的可编辑区域中忠实地表达给定的图像。一种简单的调制方法需要训练一个具有超过 30 亿个参数的超网络。通过仔细的网络设计,我们将其减少到与现有编码器一致。 HyperStyle 产生的重建可与具有编码器近乎实时推理能力的优化技术相媲美。

Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object Detection
Authors Deepti Hegde, Vishal Patel
3D 对象检测网络倾向于偏向于它们所训练的数据。由于与测试或目标数据的分布存在差距,对在与训练源数据不同的位置、条件或传感器中捕获的数据集进行评估会导致模型性能下降。当前的域自适应方法要么假设在训练期间访问源数据,这可能由于隐私或内存问题而无法使用,或者需要一系列激光雷达帧作为输入。我们提出了一种单帧方法,用于基于激光雷达的 3D 对象检测器的无源、无监督域适应,该方法使用类原型来减轻伪标签噪声的影响。为了解决在存在噪声标签的情况下原型计算的传统特征聚合方法的局限性,我们利用转换器模块来识别与不正确的、过度自信的注释相对应的异常 ROI,并计算一个注意力集中的类原型。在迭代训练策略下,与噪声伪标签相关的损失在自训练过程中被降低权重,从而得到细化。为了验证我们提出的方法的有效性,我们检查了与在大型、标签丰富的数据集(如 Waymo 开放数据集和 nuScenes)上训练的网络相关的域转移,并在较小的、标签较差的数据集(如 KITTI)上进行评估,反之亦然。

Leveraging The Topological Consistencies of Learning in Deep Neural Networks
Authors Stuart Synakowski, Fabian Benitez Quiroz, Aleix M. Martinez
最近,已经开发出一些方法来准确预测深度神经网络 DNN 在特定任务上的测试性能,给定其底层拓扑结构的统计数据。然而,由于时间和内存方面的高计算成本,进一步将这种新发现的见解用于实际应用是难以处理的。在这项工作中,我们定义了一类新的拓扑特征,这些特征可以准确表征学习进度,同时在运行时快速计算。此外,我们提出的拓扑特征很容易用于反向传播,这意味着它们可以被纳入端到端的训练中。我们新开发的 DNN 实用拓扑表征允许一组额外的应用。我们首先展示了我们可以在没有测试集和高性能计算的情况下预测 DNN 的性能。我们还证明了我们对 DNN 的拓扑表征在估计任务相似性方面是有效的。最后,我们展示了我们可以通过主动约束 DNN 的拓扑结构来诱导 DNN 学习。

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
Authors Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn
扩散概率模型 DPM 在图像生成方面取得了可与 GAN 相媲美的卓越品质。但与 GAN 不同的是,DPM 使用一组缺乏语义意义且不能作为其他任务有用表示的潜在变量。本文探讨了使用 DPM 进行表征学习的可能性,并试图通过自动编码提取输入图像的有意义且可解码的表征。我们的关键思想是使用可学习的编码器来发现高级语义,并使用 DPM 作为解码器来对剩余的随机变化进行建模。我们的方法可以将任何图像编码为两部分的潜在代码,其中第一部分在语义上有意义且是线性的,第二部分捕获随机细节,允许近乎精确的重建。此功能支持目前阻碍基于 GAN 方法的具有挑战性的应用,例如对真实图像的属性操作。

DeDUCE: Generating Counterfactual Explanations Efficiently
Authors Benedikt H ltgen, Lisa Schut, Jan M. Brauner, Yarin Gal
当图像分类器输出错误的类标签时,查看图像中的哪些变化会导致正确分类会很有帮助。这是生成反事实解释的算法的目标。但是,没有易于扩展的方法来生成此类反事实。我们开发了一种新算法,以低计算成本为使用光谱归一化训练的大型图像分类器提供反事实解释。我们凭经验将此算法与文献中的基线进行比较,我们的新算法始终发现更接近原始输入的反事实。同时,这些反事实的真实性与基线相当。

BuildFormer: Automatic building extraction with vision transformer
Authors Libo Wang, Yuechi Yang, Rui Li
从高分辨率遥感图像中提取建筑物在众多地理空间应用中起着至关重要的作用,例如城市规划、人口统计、经济评估和灾害管理。随着深度学习技术的进步,深度卷积神经网络DCNNs多年来一直主导着自动建筑物提取任务。然而,DCNN 的局部特性限制了全局信息的提取,削弱了网络识别建筑物实例的能力。最近,Transformer 成为计算机视觉领域的热门话题,并在基本视觉任务(如图像分类、语义分割和对象检测)中实现了最先进的性能。受此启发,在本文中,我们提出了一种新的基于变压器的网络,用于从高分辨率遥感图像中提取建筑物,即 BuildFormer。

Image Style Transfer and Content-Style Disentanglement
Authors Sailun Xu, Jiazhi Zhang, Jiamei Liu
我们提出了一种学习图像的解开内容样式表示的方法,允许我们将图像外推到任何样式以及在任何样式对之间进行插值。通过在监督设置中增加数据集并施加三元组损失,我们确保由内容和样式表示编码的信息的分离。

Semi-Local Convolutions for LiDAR Scan Processing
Authors Larissa T. Triess, David Peter, J. Marius Z llner
许多应用程序,例如移动机器人或自动驾驶汽车,都使用 LiDAR 传感器来获取有关其三维环境的详细信息。许多方法使用类似图像的投影来有效地处理这些 LiDAR 测量值,并使用深度卷积神经网络来预测扫描中每个点的语义类别。空间平稳假设允许使用卷积。然而,激光雷达扫描在垂直轴上表现出很大的外观差异。因此,我们提出了半局部卷积 SLC,这是一种沿垂直维度减少权重共享的卷积层。我们首先研究了这种独立于任何其他模型更改的层的使用。

The MIS Check-Dam Dataset for Object Detection and Instance Segmentation Tasks
Authors Chintan Tundia, Rajiv Kumar, Om Damani, G. Sivakumar
深度学习在对象检测和实例分割以及其他计算机视觉任务方面取得了许多最新进展。这些进步导致基于深度学习的方法和相关方法在卫星图像的目标检测任务中得到广泛应用。在本文中,我们介绍了 MIS Check Dam,这是一个来自卫星图像的新淤地坝数据集,用于构建用于检测和绘制淤地坝的自动化系统,重点介绍用于农业的灌溉结构的重要性。我们回顾了一些最新的对象检测和实例分割方法,并评估它们在我们的新数据集上的性能。我们在各种网络配置和主干架构下评估了几种单阶段、两阶段和基于注意力的方法。

Robust Partial-to-Partial Point Cloud Registration in a Full Range
Authors Liang Pan, Zhongang Cai, Ziwei Liu
由于稀疏和嘈杂的测量、不完整的观察和大的变换,3D 对象的点云配准非常具有挑战性。在这项工作中,我们提出了图匹配共识网络 GMCNet,它估计了全范围 1 部分到部分点云注册 PPR 的姿势不变对应关系。为了对鲁棒点描述符进行编码,我们首先全面研究了各种几何特征的变换鲁棒性和噪声弹性。 2 然后,我们采用了一种新颖的变换鲁棒点变换器 TPT 模块来自适应地聚合关于结构关系的局部特征,这利用了手工制作的旋转不变 RI 特征和抗噪空间坐标。 3 基于分层图网络和图形建模的协同作用,我们提出了分层图形建模 HGM 架构来编码稳健的描述符,包括从 RI 特征学习的 ia 一元项和 ii 通过我们的 TPT 从不同尺度的相邻点关系编码的多个平滑项模块。此外,我们使用虚拟扫描构建了一个具有挑战性的 PPR 数据集 MVP RG。大量实验表明,GMCNet 在 PPR 方面优于以前最先进的方法。值得注意的是,GMCNet 为每个点云单独编码点描述符,而不使用跨上下文信息或用于训练的地面实况对应。

Human Imperceptible Attacks and Applications to Improve Fairness
Authors Xinru Hua, Huanzhong Xu, Jose Blanchet, Viet Nguyen
现代神经网络在涉及对象分类和图像生成的众多任务中至少能够像人类一样执行。然而,人类无法察觉的小扰动可能会显着降低训练有素的深度神经网络的性能。我们提供了一个分布式鲁棒优化 DRO 框架,该框架集成了基于人类的图像质量评估方法,以设计人类无法察觉但对深度神经网络具有显着破坏性的最佳攻击。通过大量实验,我们表明我们的攻击算法比其他最先进的人类无法察觉的攻击方法产生更好的质量,人类攻击不易察觉。此外,我们证明使用我们优化设计的人类不可察觉攻击的 DRO 训练可以提高图像分类中的组公平性。

MapReader: A Computer Vision Pipeline for the Semantic Exploration of Maps at Scale
Authors Kasra Hosseini, Daniel C.S. Wilson, Kaspar Beelen, Katherine McDonough
我们提供 MapReader,这是一个用 Python 编写的免费开源软件库,用于分析扫描或原生数字化的大型地图集。该图书馆通过将广泛的、同质的地图集转变为可搜索的主要来源,改变了历史学家使用地图的方式。 MapReader 允许几乎没有或没有计算机视觉专业知识的用户通过网络服务器检索地图 ii 预处理并将它们划分为补丁 iii 注释补丁 iv 训练、微调和评估深度神经网络模型以及 v 创建有关地图内容的结构化数据。我们展示了 MapReader 如何使历史学家能够解释大约 16,000 幅 19 世纪军械测量图的集合,大约 3,050 万个补丁,突出了将视觉标记转换为机器可读数据的挑战。我们提出了一个案例研究,重点是这些地图上描绘的英国铁路基础设施和建筑物。我们还展示了 MapReader 管道的输出如何链接到其他外部数据集,我们用这些数据集来评估以及丰富和解释结果。

Automated Damage Inspection of Power Transmission Towers from UAV Images
Authors Aleixo Cambeiro Barreiro, Clemens Seibold, Anna Hilsmann, Peter Eisert
基础设施检查是一项非常昂贵的任务,需要技术人员访问偏远或难以到达的地方。电力传输塔就是这种情况,它们位置稀少,需要训练有素的工人爬上它们以寻找损坏。最近,业界越来越多地使用无人机或直升机进行远程记录,让技术人员免于这项危险的任务。然而,这留下了分析大量图像的问题,这具有很大的自动化潜力。由于多种原因,这是一项具有挑战性的任务。首先,缺乏免费可用的训练数据和收集它的难度使这个问题复杂化。此外,构成损害的界限是模糊的,在数据​​标记中引入了一定程度的主观性。图像中不平衡的类分布也在增加任务的难度中起作用。本文解决了输电塔结构损坏检测的问题,解决了这些问题。

Low-light Image Enhancement via Breaking Down the Darkness
Authors Qiming Hu, Xiaojie Guo
在弱光环境中捕获的图像通常会出现复杂的退化。单纯的调光,难免会导致隐性噪点和色彩失真的爆发。为了从退化的输入中寻求满足照明、清洁度和真实感的结果,本文提出了一个受分而治之原则启发的新框架,大大减轻了退化纠缠。假设可以将图像分解为具有可能的噪声和颜色分量的纹理,则可以在调光的同时具体执行噪声去除和颜色校正。为此,我们建议将 RGB 空间中的图像转换为亮度色度图像。可调噪声抑制网络旨在消除增亮亮度中的噪声,估计照明图以指示噪声增强水平。增强的亮度进一步作为色度映射器生成逼真色彩的指导。进行了广泛的实验以揭示我们设计的有效性,并在几个基准数据集上从数量和质量上证明其优于最先进的替代方案。

NeuSample: Neural Sample Field for Efficient View Synthesis
Authors Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi Tian
神经辐射场 NeRF 在表示 3D 场景和合成新视图方面显示出巨大的潜力,但 NeRF 在推理阶段的计算开销仍然很大。为了减轻负担,我们深入研究了 NeRF 的从粗到细的分层采样过程,并指出粗阶段可以用一个轻量级模块代替,我们将其命名为神经样本域。提议的样本场将光线映射到样本分布中,样本分布可以转换为点坐标并输入辐射场进行体绘制。整个框架被命名为 NeuSample。我们对 Realistic Synthetic 360 circ 和 Real Forward Facing 这两个流行的 3D 场景集进行了实验,结果表明 NeuSample 实现了比 NeRF 更好的渲染质量,同时享有更快的推理速度。

Nonlinear Intensity Underwater Sonar Image Matching Method Based on Phase Information and Deep Convolution Features
Authors Xiaoteng Zhou, Changli Yu, Xin Yuan, Haijun Feng, Yang Xu
在深海探测领域,声纳是目前唯一高效的远距离传感设备。复杂的水下环境,如噪声干扰、低目标强度或背景动态等,给声纳成像带来了诸多负面影响。其中,非线性强度问题极为普遍。也称为声传感器成像的各向异性,即自主水下航行器AUV携带声纳从不同角度探测同一目标时,图像对之间的强度变化有时非常大,这使得传统的匹配算法几乎无效.然而,图像匹配是导航、定位和地图绘制等综合任务的基础。因此,获得稳健而准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深度卷积特征的组合匹配方法。它有两个突出的优点,一是可以利用深度卷积特征来衡量声纳图像局部和全局位置的相似度;二是可以在声纳图像的关键目标位置进行局部特征匹配。该方法不需要复杂的人工设计,以端到端的方式完成非线性强度声纳图像的匹配任务。

RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising
Authors Michael Schelling, Pedro Hermosilla, Timo Ropinski
由于多路径干扰 MPI,飞行时间 ToF 相机会受到高水平噪声和失真的影响。虽然最近的研究表明 2D 神经网络在对 ToF 数据去噪方面能够胜过以往传统的最先进的 SOTA 方法,但几乎没有对基于学习的方法进行研究以直接利用深度图像中存在的 3D 信息。在本文中,我们提出了一种在 3D 空间中运行的迭代去噪方法,该方法旨在通过启用 3D 点卷积来校正沿视图方向的点位置来学习 2.5D 数据。由于此任务中标记的真实世界数据很少,因此我们使用未标记的真实世界数据的自训练方法进一步训练我们的网络,以解释真实世界的统计数据。

ESL: Event-based Structured Light
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值