【AI视野·今日CV 计算机视觉论文速览 第241期】Wed, 1 Dec 2021

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 1 Dec 2021 (showing first 100 of 112 entries)
Totally 100 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Unsupervised Domain Adaptation: A Reality Check
Authors Kevin Musgrave, Serge Belongie, Ser Nam Lim
近年来,人们对无监督域自适应 UDA 的兴趣激增,产生了大量新算法。然而,正如在快速移动领域中的情况一样,基线算法没有得到应有的测试。此外,很少有人关注验证方法,即在没有目标域标签的情况下估计模型准确性的方法。尽管验证方法是任何 UDA 训练 val 管道的关键组成部分,但这仍然存在。在本文中,我们通过大规模实验表明 1 在 oracle 设置中,UDA 算法之间的准确性差异比以前认为的要小,2 最先进的验证方法与准确性没有很好的相关性,3 UDA 算法之间的差异

AdaViT: Adaptive Vision Transformers for Efficient Image Recognition
Authors Lingchen Meng, Hengduo Li, Bor Chun Chen, Shiyi Lan, Zuxuan Wu, Yu Gang Jiang, Ser Nam Lim
视觉变换器建立在自我注意机制之上,最近在各种视觉任务中表现出卓越的性能。在实现卓越性能的同时,它们仍然需要相对密集的计算成本,随着补丁、自注意力头和转换器块数量的增加,计算成本会急剧增加。在本文中,我们认为由于图像之间的巨大差异,它们对补丁之间的长程依赖关系建模的需求不同。为此,我们引入了 AdaViT,这是一个自适应计算框架,它学习导出使用策略,在每个输入的基础上,在整个主干中使用哪些补丁、自注意力头和转换器块,旨在以最小的代价提高视觉转换器的推理效率。图像识别准确率下降。以端到端的方式与变压器主干联合优化,轻量级决策网络连接到主干,以即时产生决策。 ImageNet 上的大量实验表明,与最先进的视觉变换器相比,我们的方法在效率上提高了 2 倍以上,准确度仅下降了 0.8,在不同的计算预算条件下实现了良好的效率准确度权衡。

ATS: Adaptive Token Sampling For Efficient Vision Transformers
Authors Mohsen Fayyaz, Soroush Abbasi Kouhpayegani, Farnoush Rezaei Jafari, Eric Sommerlade, Hamid Reza Vaezi Joze, Hamed Pirsiavash, Juergen Gall
虽然最先进的视觉变换器模型在图像分类方面取得了可喜的结果,但它们的计算成本非常高,并且需要许多 GFLOP。尽管可以通过减少网络中的标记数量来减少视觉转换器的 GFLOP,但没有针对所有输入图像的最佳设置。因此,在这项工作中,我们引入了一个可微的无参数自适应令牌采样 ATS 模块,该模块可以插入任何现有的视觉转换器架构。 ATS 通过对重要标记进行评分和自适应采样来增强视觉变换器的能力。因此,令牌的数量不再是静态的,而是因每个输入图像而异。通过将 ATS 作为电流转换器块中的附加层集成,我们可以将它们转换为具有自适应数量令牌的更高效的视觉转换器。由于 ATS 是一个无参数模块,它可以作为即插即用模块添加到现成的预训练视觉转换器中,从而无需任何额外培训即可减少其 GFLOP。但是,由于其可微分设计,还可以训练配备 ATS 的视觉转换器。我们通过将模块添加到多个最先进的视觉转换器来评估我们在 ImageNet 数据集上的模块。

HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
Authors Yuval Alaluf, Omer Tov, Ron Mokady, Rinon Gal, Amit H. Bermano
将真实图像倒置到 StyleGAN 的潜在空间中是一个很好研究的问题。然而,将现有方法应用于现实世界场景仍然是一个开放的挑战,因为重建和可编辑性潜在空间区域之间的固有权衡可以准确地表示真实图像,通常会遭受语义控制降级的影响。最近的工作建议通过微调生成器将目标图像添加到潜在空间中表现良好的可编辑区域来减轻这种权衡。虽然很有前途,但这种微调方案对于普遍使用是不切实际的,因为它需要对每个新图像进行漫长的训练阶段。在这项工作中,我们将这种方法引入基于编码器的反演领域。我们提出了 HyperStyle,这是一种超网络,它学习调节 StyleGAN 的权重,以在潜在空间的可编辑区域中忠实地表达给定的图像。一种简单的调制方法需要训练一个具有超过 30 亿个参数的超网络。通过仔细的网络设计,我们将其减少到与现有编码器一致。 HyperStyle 产生的重建可与具有编码器近乎实时推理能力的优化技术相媲美。

Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D Object Detection
Authors Deepti Hegde, Vishal Patel
3D 对象检测网络倾向于偏向于它们所训练的数据。由于与测试或目标数据的分布存在差距,对在与训练源数据不同的位置、条件或传感器中捕获的数据集进行评估会导致模型性能下降。当前的域自适应方法要么假设在训练期间访问源数据,这可能由于隐私或内存问题而无法使用,或者需要一系列激光雷达帧作为输入。我们提出了一种单帧方法,用于基于激光雷达的 3D 对象检测器的无源、无监督域适应,该方法使用类原型来减轻伪标签噪声的影响。为了解决在存在噪声标签的情况下原型计算的传统特征聚合方法的局限性,我们利用转换器模块来识别与不正确的、过度自信的注释相对应的异常 ROI,并计算一个注意力集中的类原型。在迭代训练策略下,与噪声伪标签相关的损失在自训练过程中被降低权重,从而得到细化。为了验证我们提出的方法的有效性,我们检查了与在大型、标签丰富的数据集(如 Waymo 开放数据集和 nuScenes)上训练的网络相关的域转移,并在较小的、标签较差的数据集(如 KITTI)上进行评估,反之亦然。

Leveraging The Topological Consistencies of Learning in Deep Neural Networks
Authors Stuart Synakowski, Fabian Benitez Quiroz, Aleix M. Martinez
最近,已经开发出一些方法来准确预测深度神经网络 DNN 在特定任务上的测试性能,给定其底层拓扑结构的统计数据。然而,由于时间和内存方面的高计算成本,进一步将这种新发现的见解用于实际应用是难以处理的。在这项工作中,我们定义了一类新的拓扑特征,这些特征可以准确表征学习进度,同时在运行时快速计算。此外,我们提出的拓扑特征很容易用于反向传播,这意味着它们可以被纳入端到端的训练中。我们新开发的 DNN 实用拓扑表征允许一组额外的应用。我们首先展示了我们可以在没有测试集和高性能计算的情况下预测 DNN 的性能。我们还证明了我们对 DNN 的拓扑表征在估计任务相似性方面是有效的。最后,我们展示了我们可以通过主动约束 DNN 的拓扑结构来诱导 DNN 学习。

Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
Authors Konpat Preechakul, Nattanat Chatthee, Suttisak Wizadwongsa, Supasorn Suwajanakorn
扩散概率模型 DPM 在图像生成方面取得了可与 GAN 相媲美的卓越品质。但与 GAN 不同的是,DPM 使用一组缺乏语义意义且不能作为其他任务有用表示的潜在变量。本文探讨了使用 DPM 进行表征学习的可能性,并试图通过自动编码提取输入图像的有意义且可解码的表征。我们的关键思想是使用可学习的编码器来发现高级语义,并使用 DPM 作为解码器来对剩余的随机变化进行建模。我们的方法可以将任何图像编码为两部分的潜在代码,其中第一部分在语义上有意义且是线性的,第二部分捕获随机细节,允许近乎精确的重建。此功能支持目前阻碍基于 GAN 方法的具有挑战性的应用,例如对真实图像的属性操作。

DeDUCE: Generating Counterfactual Explanations Efficiently
Authors Benedikt H ltgen, Lisa Schut, Jan M. Brauner, Yarin Gal
当图像分类器输出错误的类标签时,查看图像中的哪些变化会导致正确分类会很有帮助。这是生成反事实解释的算法的目标。但是,没有易于扩展的方法来生成此类反事实。我们开发了一种新算法,以低计算成本为使用光谱归一化训练的大型图像分类器提供反事实解释。我们凭经验将此算法与文献中的基线进行比较,我们的新算法始终发现更接近原始输入的反事实。同时,这些反事实的真实性与基线相当。

BuildFormer: Automatic building extraction with vision transformer
Authors Libo Wang, Yuechi Yang, Rui Li
从高分辨率遥感图像中提取建筑物在众多地理空间应用中起着至关重要的作用,例如城市规划、人口统计、经济评估和灾害管理。随着深度学习技术的进步,深度卷积神经网络DCNNs多年来一直主导着自动建筑物提取任务。然而,DCNN 的局部特性限制了全局信息的提取,削弱了网络识别建筑物实例的能力。最近,Transformer 成为计算机视觉领域的热门话题,并在基本视觉任务(如图像分类、语义分割和对象检测)中实现了最先进的性能。受此启发,在本文中,我们提出了一种新的基于变压器的网络,用于从高分辨率遥感图像中提取建筑物,即 BuildFormer。

Image Style Transfer and Content-Style Disentanglement
Authors Sailun Xu, Jiazhi Zhang, Jiamei Liu
我们提出了一种学习图像的解开内容样式表示的方法,允许我们将图像外推到任何样式以及在任何样式对之间进行插值。通过在监督设置中增加数据集并施加三元组损失,我们确保由内容和样式表示编码的信息的分离。

Semi-Local Convolutions for LiDAR Scan Processing
Authors Larissa T. Triess, David Peter, J. Marius Z llner
许多应用程序,例如移动机器人或自动驾驶汽车,都使用 LiDAR 传感器来获取有关其三维环境的详细信息。许多方法使用类似图像的投影来有效地处理这些 LiDAR 测量值,并使用深度卷积神经网络来预测扫描中每个点的语义类别。空间平稳假设允许使用卷积。然而,激光雷达扫描在垂直轴上表现出很大的外观差异。因此,我们提出了半局部卷积 SLC,这是一种沿垂直维度减少权重共享的卷积层。我们首先研究了这种独立于任何其他模型更改的层的使用。

The MIS Check-Dam Dataset for Object Detection and Instance Segmentation Tasks
Authors Chintan Tundia, Rajiv Kumar, Om Damani, G. Sivakumar
深度学习在对象检测和实例分割以及其他计算机视觉任务方面取得了许多最新进展。这些进步导致基于深度学习的方法和相关方法在卫星图像的目标检测任务中得到广泛应用。在本文中,我们介绍了 MIS Check Dam,这是一个来自卫星图像的新淤地坝数据集,用于构建用于检测和绘制淤地坝的自动化系统,重点介绍用于农业的灌溉结构的重要性。我们回顾了一些最新的对象检测和实例分割方法,并评估它们在我们的新数据集上的性能。我们在各种网络配置和主干架构下评估了几种单阶段、两阶段和基于注意力的方法。

Robust Partial-to-Partial Point Cloud Registration in a Full Range
Authors Liang Pan, Zhongang Cai, Ziwei Liu
由于稀疏和嘈杂的测量、不完整的观察和大的变换,3D 对象的点云配准非常具有挑战性。在这项工作中,我们提出了图匹配共识网络 GMCNet,它估计了全范围 1 部分到部分点云注册 PPR 的姿势不变对应关系。为了对鲁棒点描述符进行编码,我们首先全面研究了各种几何特征的变换鲁棒性和噪声弹性。 2 然后,我们采用了一种新颖的变换鲁棒点变换器 TPT 模块来自适应地聚合关于结构关系的局部特征,这利用了手工制作的旋转不变 RI 特征和抗噪空间坐标。 3 基于分层图网络和图形建模的协同作用,我们提出了分层图形建模 HGM 架构来编码稳健的描述符,包括从 RI 特征学习的 ia 一元项和 ii 通过我们的 TPT 从不同尺度的相邻点关系编码的多个平滑项模块。此外,我们使用虚拟扫描构建了一个具有挑战性的 PPR 数据集 MVP RG。大量实验表明,GMCNet 在 PPR 方面优于以前最先进的方法。值得注意的是,GMCNet 为每个点云单独编码点描述符,而不使用跨上下文信息或用于训练的地面实况对应。

Human Imperceptible Attacks and Applications to Improve Fairness
Authors Xinru Hua, Huanzhong Xu, Jose Blanchet, Viet Nguyen
现代神经网络在涉及对象分类和图像生成的众多任务中至少能够像人类一样执行。然而,人类无法察觉的小扰动可能会显着降低训练有素的深度神经网络的性能。我们提供了一个分布式鲁棒优化 DRO 框架,该框架集成了基于人类的图像质量评估方法,以设计人类无法察觉但对深度神经网络具有显着破坏性的最佳攻击。通过大量实验,我们表明我们的攻击算法比其他最先进的人类无法察觉的攻击方法产生更好的质量,人类攻击不易察觉。此外,我们证明使用我们优化设计的人类不可察觉攻击的 DRO 训练可以提高图像分类中的组公平性。

MapReader: A Computer Vision Pipeline for the Semantic Exploration of Maps at Scale
Authors Kasra Hosseini, Daniel C.S. Wilson, Kaspar Beelen, Katherine McDonough
我们提供 MapReader,这是一个用 Python 编写的免费开源软件库,用于分析扫描或原生数字化的大型地图集。该图书馆通过将广泛的、同质的地图集转变为可搜索的主要来源,改变了历史学家使用地图的方式。 MapReader 允许几乎没有或没有计算机视觉专业知识的用户通过网络服务器检索地图 ii 预处理并将它们划分为补丁 iii 注释补丁 iv 训练、微调和评估深度神经网络模型以及 v 创建有关地图内容的结构化数据。我们展示了 MapReader 如何使历史学家能够解释大约 16,000 幅 19 世纪军械测量图的集合,大约 3,050 万个补丁,突出了将视觉标记转换为机器可读数据的挑战。我们提出了一个案例研究,重点是这些地图上描绘的英国铁路基础设施和建筑物。我们还展示了 MapReader 管道的输出如何链接到其他外部数据集,我们用这些数据集来评估以及丰富和解释结果。

Automated Damage Inspection of Power Transmission Towers from UAV Images
Authors Aleixo Cambeiro Barreiro, Clemens Seibold, Anna Hilsmann, Peter Eisert
基础设施检查是一项非常昂贵的任务,需要技术人员访问偏远或难以到达的地方。电力传输塔就是这种情况,它们位置稀少,需要训练有素的工人爬上它们以寻找损坏。最近,业界越来越多地使用无人机或直升机进行远程记录,让技术人员免于这项危险的任务。然而,这留下了分析大量图像的问题,这具有很大的自动化潜力。由于多种原因,这是一项具有挑战性的任务。首先,缺乏免费可用的训练数据和收集它的难度使这个问题复杂化。此外,构成损害的界限是模糊的,在数据​​标记中引入了一定程度的主观性。图像中不平衡的类分布也在增加任务的难度中起作用。本文解决了输电塔结构损坏检测的问题,解决了这些问题。

Low-light Image Enhancement via Breaking Down the Darkness
Authors Qiming Hu, Xiaojie Guo
在弱光环境中捕获的图像通常会出现复杂的退化。单纯的调光,难免会导致隐性噪点和色彩失真的爆发。为了从退化的输入中寻求满足照明、清洁度和真实感的结果,本文提出了一个受分而治之原则启发的新框架,大大减轻了退化纠缠。假设可以将图像分解为具有可能的噪声和颜色分量的纹理,则可以在调光的同时具体执行噪声去除和颜色校正。为此,我们建议将 RGB 空间中的图像转换为亮度色度图像。可调噪声抑制网络旨在消除增亮亮度中的噪声,估计照明图以指示噪声增强水平。增强的亮度进一步作为色度映射器生成逼真色彩的指导。进行了广泛的实验以揭示我们设计的有效性,并在几个基准数据集上从数量和质量上证明其优于最先进的替代方案。

NeuSample: Neural Sample Field for Efficient View Synthesis
Authors Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi Tian
神经辐射场 NeRF 在表示 3D 场景和合成新视图方面显示出巨大的潜力,但 NeRF 在推理阶段的计算开销仍然很大。为了减轻负担,我们深入研究了 NeRF 的从粗到细的分层采样过程,并指出粗阶段可以用一个轻量级模块代替,我们将其命名为神经样本域。提议的样本场将光线映射到样本分布中,样本分布可以转换为点坐标并输入辐射场进行体绘制。整个框架被命名为 NeuSample。我们对 Realistic Synthetic 360 circ 和 Real Forward Facing 这两个流行的 3D 场景集进行了实验,结果表明 NeuSample 实现了比 NeRF 更好的渲染质量,同时享有更快的推理速度。

Nonlinear Intensity Underwater Sonar Image Matching Method Based on Phase Information and Deep Convolution Features
Authors Xiaoteng Zhou, Changli Yu, Xin Yuan, Haijun Feng, Yang Xu
在深海探测领域,声纳是目前唯一高效的远距离传感设备。复杂的水下环境,如噪声干扰、低目标强度或背景动态等,给声纳成像带来了诸多负面影响。其中,非线性强度问题极为普遍。也称为声传感器成像的各向异性,即自主水下航行器AUV携带声纳从不同角度探测同一目标时,图像对之间的强度变化有时非常大,这使得传统的匹配算法几乎无效.然而,图像匹配是导航、定位和地图绘制等综合任务的基础。因此,获得稳健而准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深度卷积特征的组合匹配方法。它有两个突出的优点,一是可以利用深度卷积特征来衡量声纳图像局部和全局位置的相似度;二是可以在声纳图像的关键目标位置进行局部特征匹配。该方法不需要复杂的人工设计,以端到端的方式完成非线性强度声纳图像的匹配任务。

RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising
Authors Michael Schelling, Pedro Hermosilla, Timo Ropinski
由于多路径干扰 MPI,飞行时间 ToF 相机会受到高水平噪声和失真的影响。虽然最近的研究表明 2D 神经网络在对 ToF 数据去噪方面能够胜过以往传统的最先进的 SOTA 方法,但几乎没有对基于学习的方法进行研究以直接利用深度图像中存在的 3D 信息。在本文中,我们提出了一种在 3D 空间中运行的迭代去噪方法,该方法旨在通过启用 3D 点卷积来校正沿视图方向的点位置来学习 2.5D 数据。由于此任务中标记的真实世界数据很少,因此我们使用未标记的真实世界数据的自训练方法进一步训练我们的网络,以解释真实世界的统计数据。

ESL: Event-based Structured Light
Authors Manasi Muglikar, Guillermo Gallego, Davide Scaramuzza
事件相机是仿生传感器,与标准相机相比具有显着优势,例如低延迟、高时间分辨率和高动态范围。我们提出了一种使用事件相机的新型结构光系统来解决准确和高速深度感应的问题。我们的设置由一个事件相机和一个激光点投影仪组成,它们在 16 毫秒内以光栅扫描模式均匀照亮场景。以前的方法相互独立地匹配事件,因此它们在存在信号延迟和抖动的情况下以高扫描速度提供嘈杂的深度估计。相比之下,我们优化了一个旨在利用事件相关性的能量函数,称为时空一致性。由此产生的方法对事件抖动具有鲁棒性,因此在更高的扫描速度下表现更好。

Regularized directional representations for medical image registration
Authors Vincent Jaouen, Pierre Henri Conze, Guillaume Dardenne, Julien Bert, Dimitris Visvikis
在图像配准中,许多努力致力于开发流行的标准化互信息标准的替代方案。在进行这些努力的同时,越来越多的工作表明,通过对齐图像的结构表示而不是图像本身,也可以显着提高配准精度。沿着这条研究路径,我们提出了一种基于正则化矢量场对齐的单模态和多模态图像配准的新方法,这些矢量场来自结构信息,例如梯度矢量流场,我们称之为 textit 矢量场相似性的技术。通过将矢量场相似性替换为基于强度的配准,我们的方法可以以简单的方式与任何现有的配准框架相结合。

PolyWorld: Polygonal Building Extraction with Graph Neural Networks in Satellite Images
Authors Stefano Zorzi, Shabab Bazrafkan, Stefan Habenschuss, Friedrich Fraundorfer
大多数最先进的实例分割方法产生二进制分割掩码,然而,地理和制图应用程序通常需要提取对象的精确矢量多边形,而不是光栅化输出。本文介绍了 PolyWorld,这是一种神经网络,可直接从图像中提取建筑顶点并正确连接它们以创建精确的多边形。该模型使用图神经网络预测每对顶点之间的连接强度,并通过解决可微的最优传输问题来估计分配。此外,通过最小化组合分割和多边形角度差损失来优化顶点位置。 PolyWorld 在建筑多边形化方面明显优于最先进的技术,不仅取得了显着的定量结果,而且还产生了视觉上令人愉悦的建筑多边形。

FENeRF: Face Editing in Neural Radiance Fields
Authors Jingxiang Sun, Xuan Wang, Yong Zhang, Xiaoyu Li, Qi Zhang, Yebin Liu, Jue Wang
以前的人像图像生成方法大致分为两类:2D GAN 和 3D 感知 GAN。 2D GAN 可以生成高保真人像,但视图一致性较低。 3D 感知 GAN 方法可以保持视图一致性,但其生成的图像不可本地编辑。为了克服这些限制,我们提出了 FENeRF,这是一种 3D 感知生成器,可以生成视图一致且可本地编辑的肖像图像。我们的方法使用两个解耦的潜在代码在具有共享几何结构的空间对齐 3D 体积中生成相应的面部语义和纹理。受益于这种底层 3D 表示,FENeRF 可以联合渲染边界对齐图像和语义掩码,并使用语义掩码通过 GAN 反演来编辑 3D 体积。我们进一步表明,可以从广泛使用的单目图像和语义掩码对中学习这种 3D 表示。此外,我们揭示了联合学习语义和纹理有助于生成更精细的几何形状。

Spatio-Temporal Multi-Flow Network for Video Frame Interpolation
Authors Duolikun Danier, Fan Zhang, David Bull
视频帧插值 VFI 目前是一个非常活跃的研究课题,其应用涵盖计算机视觉、后期制作和视频编码。 VFI 可能极具挑战性,特别是在包含大运动、遮挡或动态纹理的序列中,现有方法无法提供感知上稳健的插值性能。在这种情况下,我们提出了一种新颖的基于深度学习的 VFI 方法 ST MFNet,它基于时空多流架构。 ST MFNet 采用新的多尺度多流预测器来估计多对一中间流,这些中间流与传统的一对一光流相结合以捕获大型和复杂的运动。为了增强各种纹理的插值性能,还采用 3D CNN 来对扩展时间窗口上的内容动态进行建模。此外,ST MFNet 已经在 ST GAN 框架内进行了训练,该框架最初是为纹理合成而开发的,目的是进一步提高感知插值质量。与 14 种最先进的 VFI 算法相比,我们的方法已经过全面评估,清楚地表明 ST MFNet 在各种有代表性的测试数据集上始终优于这些基准测试,对于包括大运动和动态纹理在内的情况,PSNR 显着提高了 1.09dB。

Analysis of Multiscale Wavelet-based Fractional Gradient-Anisotropic Diffusion Fusion for single hazy and underwater image enhancement
Authors Uche A. Nnolim
本报告介绍了基于多尺度小波的单图像去雾和水下图像增强方案的结果。除了模糊图像的全局增强外,该方案还快速且高度本地化。基于 PDE 的公式可实现额外的多功能性,因为迭代性质为各种类型的图像提供了更大的灵活性。

Natural Scene Text Editing Based on AI
Authors Yujie Zhang
在录制的情况下,文本信息对于场景解释和决策至关重要。直接在图像上编辑文本的能力具有许多优点,包括纠错、文本恢复和图像可重用性。这项研究展示了如何在字母和数字级别更改图像文本。我设计了一个两部分字母数字网络 LDN 来编码和解码数字图像,以及学习并将源字符的字体样式转换为目标字符。

Consensus Synergizes with Memory: A Simple Approach for Anomaly Segmentation in Urban Scenes
Authors Jiazhong Cen, Zenkun Jiang, Lingxi Xie, Qi Tian, Xiaokang Yang, Wei Shen
异常分割是安全关键应用的关键任务,例如城市场景中的自动驾驶,其目标是检测具有在训练期间看不见的类别的不分布 OOD 对象。这项任务的核心挑战是如何区分分布样本和 OOD 样本中的困难,这一点尚未明确讨论。在本文中,我们提出了一种名为 Consensus Synergizes with Memory CosMe 的新颖而简单的方法来应对这一挑战,其灵感来自心理学发现,即群体在记忆任务上的表现优于个人。主要思想是 1 构建一个记忆库,其中包含从预训练分割模型的多层中提取的可见原型和 2 训练一个模仿预训练模型行为的辅助模型,然后测量它们的中级特征的一致性作为与记忆库协同作用的补充线索。 CosMe 擅长区分hard in distribution examples 和OOD samples。

Boosting Discriminative Visual Representation Learning with Scenario-Agnostic Mixup
Authors Siyuan Li, Zicheng Liu, Di Wu, Zihan Liu, Stan Z. Li
Mixup 是一种流行的深度神经网络数据相关增强技术,它包含两个子任务,mixup 生成和分类。社区通常将混合限制为监督学习 SL,并且生成子任务的目标固定在采样对上,而不是考虑整个数据流形。为了克服这些限制,我们系统地研究了两个子任务的目标,并为 SL 和自监督学习 SSL 场景提出了 Scenario Agostic Mixup,称为 SAMix。具体来说,我们假设并验证混合生成的核心目标是优化受其他类全局歧视的两个类之间的局部平滑度。基于这一发现,提出了eta平衡混合损失来对两个子任务进行互补训练。同时,生成子任务被参数化为一个可优化模块 Mixer,它利用注意力机制生成没有标签依赖的混合样本。

Large-Scale Video Analytics through Object-Level Consolidation
Authors Daniel Rivas, Francesc Guim, Jord Polo, David Carrera
随着安装的摄像头数量增加,处理和分析这些摄像头捕获的所有图像所需的计算资源也在增加。视频分析支持新的用例,例如智能城市或自动驾驶。同时,它敦促服务提供商安装额外的计算资源来满足需求,而严格的延迟要求将计算推向网络的末端,形成了一组地理分布和异构的计算位置,共享且资源受限。这种共享和分布式位置的景观迫使我们设计新技术,可以优化和分配所有可用位置的工作,理想情况下,使计算需求相对于安装的摄像头数量呈亚线性增长。在本文中,我们介绍 FoMO Focus on Movement Objects。该方法通过对场景图像进行预处理、过滤掉空白区域并将来自多个摄像头的感兴趣区域组合成单个图像作为预训练对象检测模型的输入,从而有效地优化多摄像头部署。

A Softmax-free Loss Function Based on Predefined Optimal-distribution of Latent Features for CNN Classifier
Authors Qiuyu Zhu, Xuewen Zu
在模式分类领域,卷积神经网络分类器的训练大多是端到端的学习,损失函数是对网络最终输出后验概率的约束,所以Softmax的存在是必不可少的。在端到端学习的情况下,通常没有有效的损失函数完全依赖中间层的特征来限制学习,导致样本潜在特征的分布不是最优的,所以在分类准确率。本文基于Predefined Evenly Distributed Class Centroids PEDCC的概念,提出了一种基于潜在特征的预定义最优分布的Softmax free loss函数POD Loss。损失函数只限制样本的潜在特征,包括样本的潜在特征向量与预定义的均匀分布类的中心之间的余弦距离,以及样本的潜在特征之间的相关性。最后,余弦距离用于分类。与常用的Softmax Loss和典型的Softmax相关的AM Softmax Loss、COT Loss和PEDCC Loss相比,在典型网络上的几个常用数据集上的实验表明,POD Loss的分类性能总是更好,更容易收敛。

FMD-cGAN: Fast Motion Deblurring using Conditional Generative Adversarial Networks
Authors Jatin Kumar, Indra Deep Mastan, Shanmuganathan Raman
在本文中,我们提出了一种快速运动去模糊条件生成对抗网络 FMD cGAN,它有助于对单个图像进行盲运动去模糊。 FMD cGAN 在对图像进行去模糊后提供令人印象深刻的结构相似性和视觉外观。与其他深度神经网络架构一样,GAN 也受到模型尺寸参数和计算量大的影响。在移动和机器人等资源受限设备上部署模型并不容易。借助由深度可分离卷积组成的基于 MobileNet 的架构,我们减少了模型大小和推理时间,而不会降低图像质量。更具体地说,与最接近的竞争对手相比,我们将模型尺寸缩小了 3 60 倍。由此产生的压缩去模糊 cGAN 比其最接近的竞争对手更快,甚至定性和定量结果优于各种最近提出的最先进的盲运动去模糊模型。我们还可以将我们的模型用于实时图像去模糊任务。

The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration
Authors Bingyuan Liu, Ismail Ben Ayed, Adrian Galdran, Jose Dolz
尽管深度神经网络的性能占主导地位,但最近的工作表明,它们校准不当,导致预测过于自信。由于训练期间交叉熵的最小化,过拟合可能会加剧错误校准,因为它提高了预测的 softmax 概率以匹配一个热标签分配。这会产生正确类的 pre softmax 激活,该激活明显大于其余激活。最近的文献证据表明,嵌入预测熵的隐式或显式最大化的损失函数产生了最先进的校准性能。我们提供了当前最先进校准损失的统一约束优化视角。具体来说,这些损失可以被视为线性惩罚或拉格朗日对 logit 距离施加等式约束的近似值。这指出了此类潜在等式约束的一个重要限制,其随后的梯度不断推动非信息解决方案,这可能会阻止在基于梯度的优化过程中在判别性能和模型校准之间达到最佳折衷。根据我们的观察,我们提出了一个基于不等式约束的简单而灵活的概括,它对 logit 距离施加了可控的余量。对各种图像分类、语义分割和 NLP 基准的综合实验表明,我们的方法在网络校准方面为这些任务设置了新的最先进的结果,而不会影响判别性能。

A Face Recognition System's Worst Morph Nightmare, Theoretically
Authors Una M. Kelly, Raymond Veldhuis, Luuk Spreeuwers
已经表明,人脸识别系统 FRS 容易受到变形攻击,但大多数研究都集中在基于地标的变形上。生成变形的第二种方法使用生成对抗网络,这会产生令人信服的真实面部图像,这对 FRS 来说几乎与基于地标的攻击一样具有挑战性。我们提出了一种方法来创建第三种不同类型的变形,其优点是更容易训练。我们介绍了 textit 最坏情况变形的理论概念,这是对固定 FRS 最具挑战性的变形。对于 FRS 潜在空间中的一组图像和相应的嵌入,我们使用从嵌入空间回图像空间的映射生成近似这些最坏情况变形的图像。虽然生成的图像不像其他变形那样具有挑战性,但它们可以为未来关于变形攻击检测 MAD 方法和 FRS 弱点的研究提供有价值的信息。 MAD 的方法需要在更多样化的形态数据库上进行验证。

Probabilistic Estimation of 3D Human Shape and Pose with a Semantic Local Parametric Model
Authors Akash Sengupta, Ignas Budvytis, Roberto Cipolla
本文解决了从 RGB 图像估计 3D 人体形状和姿势的问题。该任务的一些最新方法预测以输入图像为条件的人体模型参数的概率分布。这是由问题的不适定性质引起的,其中多个 3D 重建可能与图像证据相匹配,特别是当身体的某些部分被局部遮挡时。然而,广泛使用的身体模型中的身体形状参数,例如SMPL 控制整个身体表面的全局变形。这些全局形状参数的分布无法有意义地捕捉与局部遮挡身体部位相关的形状估计中的不确定性。相比之下,我们提出了一种方法,i 以语义身体测量的形式预测局部身体形状的分布,ii 使用线性映射将身体测量的局部分布转换为 SMPL 形状参数的全局分布。我们表明,我们的方法在 SSP 3D 数据集上的身份相关身体形状估计精度和磁带测量人类的私人数据集方面优于当前最先进的技术,通过概率地结合从主体的多个图像预测的局部身体测量分布

CT-block: a novel local and global features extractor for point cloud
Authors Shangwei Guo, Jun Li, Zhengchao Lai, Xiantong Meng, Shaokun Han
点云上的深度学习正在不断发展。将点与其邻居分组并对其进行类似卷积的操作可以学习点云的局部特征,但这种方法在提取长距离全局特征方面很弱。在整个点云上执行基于注意力的变换器可以有效地学习它的全局特征,但这种方法很难提取局部细节特征。在本文中,我们提出了一种新的模块,可以同时提取和融合局部和全局特征,称为 CT 块。 CT块由两个分支组成,其中字母C代表卷积分支,字母T代表变压器分支。卷积分支对分组的邻居点进行卷积以提取局部特征。同时,transformer 分支对整个点云进行偏移注意力处理以提取全局特征。通过CT块中的特征传输元件构建的桥梁,局部特征和全局特征在学习过程中相互引导,有效融合。我们应用 CT 块构建点云分类和分割网络,并通过几个公共数据集评估它们的性能。

Reconstruction Student with Attention for Student-Teacher Pyramid Matching
Authors Shinji Yamada, Kazuhiro Hotta
异常检测和定位是计算机视觉中的重要问题。最近,卷积神经网络CNN已被用于视觉检查。特别是异常样本的稀缺性增加了这项任务的难度,基于无监督学习的方法正在引起人们的关注。我们专注于学生教师特征金字塔匹配 STPM,它可以仅从具有少量 epoch 的正常图像进行训练。在这里,我们提出了一种强大的方法来弥补 STPM 的缺点。提出的方法由两个学生和两个教师组成,一对学生教师网络与 STPM 相同。另一个学生教师网络具有重构正常产品特征的作用。通过从异常图像重建正常产品的特征,可以通过获取它们之间的差异来更准确地检测异常。新的学生教师网络使用注意力模块和与原始 STPM 不同的教师网络。注意机制用于成功重建输入图像中的正常区域。不同的教师网络防止查看与原始 STPM 相同的区域。从两个学生教师网络获得的六个异常图用于计算最终的异常图。

Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding
Authors Abdullah Hamdi, Silvio Giancola, Bernard Ghanem
多视图投影方法在 3D 理解任务(如 3D 分类和分割)上表现出良好的性能。然而,目前尚不清楚如何将这种多视图方法与广泛可用的 3D 点云相结合。以前的方法使用未学习的启发式方法在点级别组合特征。为此,我们引入了多视点云 Voint cloud 的概念,将每个 3D 点表示为从多个视点提取的一组特征。这种新颖的 3D Voint 云表示结合了 3D 点云表示的紧凑性和多视图表示的自然视图感知。自然地,我们可以为这种新表示配备卷积和池化操作。我们部署了具有理论上建立的函数形式的 Voint 神经网络 VointNet 来学习 Voint 空间中的表示。我们的新颖表示在 ScanObjectNN、ModelNet40 和 ShapeNet Core55 上实现了 3D 分类和检索的最先进性能。此外,我们在 ShapeNet Parts 上实现了具有竞争力的 3D 语义分割性能。

ISNAS-DIP: Image-Specific Neural Architecture Search for Deep Image Prior
Authors Metin Ersin Arican, Ozgur Kara, Gustav Bredell, Ender Konukoglu
最近的工作表明,卷积神经网络 CNN 架构对较低频率具有频谱偏差,这已被用于深度图像先验 DIP 框架中的各种图像恢复任务。网络在 DIP 框架中施加的归纳偏置的好处取决于架构。因此,研究人员研究了如何自动搜索以确定性能最佳的模型。然而,常见的神经架构搜索 NAS 技术是资源和时间密集型的。此外,最好的模型是为整个图像数据集确定的,而不是单独为每个图像确定的,这将非常昂贵。在这项工作中,我们首先表明 DIP 框架中的最佳神经架构是图像相关的。利用这一见解,我们然后为 DIP 框架提出了一种图像特定的 NAS 策略,该策略所需的训练比典型的 NAS 方法少得多,从而有效地实现了图像特定的 NAS。对于给定的图像,噪声被馈送到大量未经训练的 CNN,并使用各种指标将它们的输出功率谱密度 PSD 与损坏图像的输出功率谱密度进行比较。基于此,选择并训练一小群图像特定架构来重建损坏的图像。在这个队列中,选择重建最接近重建图像平均值的模型作为最终模型。我们通过 1 证明其在 DIP 的 NAS 数据集上的性能来证明所提出策略的有效性,该数据集包括来自特定搜索空间的 500 个模型 2 对图像去噪、修复和超分辨率任务进行广泛的实验。

Seeking Salient Facial Regions for Cross-Database Micro-Expression Recognition
Authors Xingxun Jiang, Yuan Zong, Wenming Zheng
本文重点研究跨数据库微表情识别的研究,其中训练和测试的微表情样本属于不同的微表情数据库。训练和测试微表达特征之间不匹配的特征分布会降低大多数表现良好的微表达方法的性能。为了处理跨数据库微表情识别,我们提出了一种新的域适应方法,称为传输组稀疏回归 TGSR。 TGSR 学习一个稀疏回归矩阵,用于选择显着的面部局部区域以及训练集和测试集的对应关系。我们在 CASME II 和 SMIC 数据库中评估我们的 TGSR 模型。

ZZ-Net: A Universal Rotation Equivariant Architecture for 2D Point Clouds
Authors Georg B kman, Fredrik Kahl, Axel Flinth
在本文中,我们关注的是二维点云数据的旋转等方差。我们描述了一组特定的函数,能够逼近任何连续旋转等变和置换不变函数。

MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning
Authors Sara Atito, Muhammad Awais, Ammarah Farooq, Zhenhua Feng, Josef Kittler
自监督预训练是自然语言处理模型的首选方法,并且在许多视觉任务中迅速普及。最近,自监督预训练在许多下游视觉应用中表现优于监督预训练,标志着该领域的一个里程碑。这种优势归因于训练图像标记不完整的负面影响,这些图像传达了多个概念,但使用单个主导类标签进行了注释。尽管自监督学习 SSL 原则上不受此限制,但促进 SSL 的借口任务的选择通过将学习过程推向单一概念输出而使这一缺点永久化。本研究旨在研究在不使用标签的情况下对图像中存在的所有概念进行建模的可能性。在这方面,提议的 SSL 框架 MC SSL0.0 是迈向多概念自我监督学习 MC SSL 的一步,它超越了对图像中的单个主导标签进行建模,以有效利用来自其中存在的所有概念的信息。 MC SSL0.0 包含两个核心设计概念,组掩码模型学习和使用动量编码器教师学生框架的数据令牌伪概念学习。多标签和多类图像分类下游任务的实验结果表明,MC SSL0.0 不仅超越了现有的 SSL 方法,而且优于监督迁移学习。

DiffSDFSim: Differentiable Rigid-Body Dynamics With Implicit Shapes
Authors Michael Strecke, Joerg Stueckler
可微物理是计算机视觉和机器人技术中用于场景理解和交互推理的强大工具。现有方法经常限于具有简单形状或预先已知的形状的对象。在本文中,我们提出了一种具有摩擦接触的可微物理的新方法,该方法使用带符号距离场 SDF 隐式表示对象形状。即使涉及的形状是非凸的,我们的模拟也支持接触点计算。此外,我们提出了区分对象形状动态的方法,以使用基于梯度的方法促进形状优化。

TridentAdapt: Learning Domain-invariance via Source-Target Confrontation and Self-induced Cross-domain Augmentation
Authors Fengyi Shen, Akhil Gurram, Ahmet Faruk Tuna, Onay Urfalioglu, Alois Knoll
由于难以获得真实标签,从虚拟世界数据集学习对现实世界的应用(如语义分割)非常感兴趣。从领域适应的角度来看,关键挑战是学习输入的领域不可知表示,以便从虚拟数据中受益。在本文中,我们提出了一种新的类似三叉戟的架构,该架构强制共享特征编码器同时满足对抗性源和目标约束,从而学习域不变特征空间。此外,我们还引入了一种新颖的训练管道,可以在前向传递期间实现自诱导跨域数据增强。这有助于进一步缩小域差距。结合自我训练过程,我们在基准数据集上获得了最先进的结果,例如GTA5 或 Synthia 对 Cityscapes 的改编。

Revisiting Temporal Alignment for Video Restoration
Authors Kun Zhou, Wenbo Li, Liying Lu, Xiaoguang Han, Jiangbo Lu
远程时间对齐对于视频恢复任务至关重要但具有挑战性。最近,一些工作试图将长距离对齐分成几个子对齐,并逐步处理它们。尽管此操作有助于对远距离对应进行建模,但由于传播机制,错误累积是不可避免的。在这项工作中,我们提出了一种新颖的、通用的迭代对齐模块,该模块对子对齐采用逐渐细化的方案,从而产生更准确的运动补偿。为了进一步提高对齐精度和时间一致性,我们开发了一种非参数重新加权方法,其中每个相邻帧的重要性以空间方式自适应评估以进行聚合。凭借所提出的策略,我们的模型在包括视频超分辨率、去噪和去模糊在内的一系列视频恢复任务的多个基准测试中实现了最先进的性能。

Affect-DML: Context-Aware One-Shot Recognition of Human Affect using Deep Metric Learning
Authors Kunyu Peng, Alina Roitberg, David Schneider, Marios Koulakis, Kailun Yang, Rainer Stiefelhagen
人类情感识别是一个成熟的研究领域,具有许多应用,例如在心理护理中,但现有方法假设所有感兴趣的情绪都是先验地作为带注释的训练示例给出的。然而,通过新的心理学理论,人类情绪谱的粒度和细化程度不断提高,以及对情境中情绪的考虑增加,给数据收集和标记工作带来了相当大的压力。在本文中,我们将情绪的一次性识别概念化为一个新问题,旨在从单个支持样本中识别更细粒度的人类情感状态。为了解决这个具有挑战性的任务,我们遵循深度度量学习范式并引入了一种多模态情感嵌入方法,该方法通过利用人类外表的互补信息和通过语义分割网络获得的语义场景上下文来最小化相同情感嵌入的距离。我们的上下文感知模型的所有流都使用加权三元组损失和加权交叉熵损失联合优化。我们对适用于我们的一次性识别问题的 Emotic 数据集的分类和数字情感识别任务进行了彻底的实验,这表明从单个示例中对人类影响进行分类是一项艰巨的任务。尽管如此,我们模型的所有变体都明显优于随机基线,同时利用语义场景上下文不断改进学习的表示,设置最先进的结果,实现一次性情感识别。

Two-stage Temporal Modelling Framework for Video-based Depression Recognition using Graph Representation
Authors Jiaqi Xu, Siyang Song, Keerthy Kusumam, Hatice Gunes, Michel Valstar
基于视频的自动抑郁症分析提供了一种快速、客观和可重复的自我评估解决方案,近年来得到了广泛的发展。虽然抑郁症线索可以通过各种时间尺度的人类面部行为来反映,但大多数现有方法要么专注于从短期或视频级别的面部行为对抑郁症进行建模。从这个意义上说,我们提出了一个两阶段框架,该框架从多尺度短期和视频级面部行为对抑郁症的严重程度进行建模。短期抑郁行为建模阶段首先从多个短时间尺度深度学习抑郁相关的面部行为特征,其中提出了一个抑郁特征增强DFE模块来增强所有时间尺度的抑郁相关线索并去除非抑郁噪声。然后,视频级抑郁行为建模阶段提出了两种新颖的图编码策略,即 Sequential Graph Representation SEG 和 Spectral Graph Representation SPG ,将目标视频的所有短期特征重新编码为视频级图表示,总结抑郁相关的多缩放视频级时间信息。因此,生成的图形表示使用短期和长期面部行为模式预测抑郁症的严重程度。在 AVEC 2013 和 AVEC 2014 数据集上的实验结果表明,所提出的 DFE 模块不断增强各种 CNN 模型的抑郁严重程度估计性能,而 SPG 优于其他视频级建模方法。

EdiBERT, a generative model for image editing
Authors Thibaut Issenhuth, Ugo Tanielian, J r mie Mary, David Picard
计算机视觉的进步正在推动图像处理的极限,生成模型对各种任务的详细图像进行采样。然而,尽管许多图像编辑任务有相似之处,但通常会为每个特定任务开发和训练专门的模型。在去噪、修复或图像合成中,人们总是致力于从低质量的图像中生成逼真的图像。在本文中,我们的目标是朝着统一的图像编辑方法迈出一步。为此,我们提出了 EdiBERT,这是一种双向变换器,在由矢量量化自动编码器构建的离散潜在空间中训练。我们认为这种双向模型适用于图像处理,因为任何补丁都可以有条件地重新采样到整个图像。

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
Authors Byeonghu Na, Yoonsik Kim, Sungrae Park
语言知识通过提供语义来细化字符序列,为场景文本识别带来了巨大的好处。然而,由于语言知识已单独应用于输出序列,以前的方法并没有充分利用语义来理解文本识别的视觉线索。本文介绍了一种名为 Multi modAl Text Recognition Network MATRN 的新方法,该方法可以实现视觉和语义特征之间的交互,从而获得更好的识别性能。具体来说,MATRN 识别视觉和语义特征对并将空间信息编码为语义特征。在空间编码的基础上,通过参考其他模态中的相关特征来增强视觉和语义特征。此外,MATRN 通过在训练阶段隐藏与角色相关的视觉线索来刺激将语义特征组合成视觉特征。我们的实验表明 MATRN 在七个基准上实现了最先进的性能,并且具有很大的利润率,而两种模式的简单组合显示出边际改进。进一步的烧蚀研究证明了我们提出的组件的有效性。

ARTSeg: Employing Attention for Thermal images Semantic Segmentation
Authors Farzeen Munir, Shoaib Azam, Unse Fatima, Moongu Jeon
研究进展使部署在自动驾驶汽车中的神经网络算法能够感知周围环境。用于感知环境的标准外感受传感器是摄像头和激光雷达。因此,利用这些外感受传感器开发的神经网络算法为自动驾驶汽车的感知提供了必要的解决方案。这些外感受传感器的一个主要缺点是它们在恶劣天气条件下的可操作性,例如低照度和夜间条件。自动驾驶汽车传感器套件中热像仪的可用性和可负担性为自动驾驶汽车在恶劣天气条件下的感知提供了必要的改进。环境的语义有利于鲁棒的感知,这可以通过分割场景中的不同对象来实现。在这项工作中,我们使用热像仪进行语义分割。我们设计了一种基于注意力的循环卷积网络 RCNN 编码器解码器架构,名为 ARTSeg,用于热语义分割。这项工作的主要贡献是编码器解码器架构的设计,它为每个编码器和解码器块采用 RCNN 单元。此外,在解码器模块中使用附加注意来保留高分辨率特征并改善特征的定位。

Hallucinated Neural Radiance Fields in the Wild
Authors Xingyu Chen, Qi Zhang, Xiaoyu Li, Yue Chen, Feng Ying, Xuan Wang, Jue Wang
神经辐射场 NeRF 最近因其令人印象深刻的新颖视图合成能力而广受欢迎。本文研究了幻觉 NeRF 的问题,即从一组旅游图像中恢复一天中不同时间的真实 NeRF。现有的解决方案采用具有可控外观嵌入的 NeRF 来在各种条件下渲染新视图,但无法渲染具有看不见的外观的视图一致的图像。为了解决这个问题,我们提出了一个端到端的框架来构建一个幻觉 NeRF,称为 H NeRF。具体来说,我们提出了一个外观幻觉模块来处理随时间变化的外观并将它们转移到新的视图中。考虑到旅游图像遮挡的复杂性,引入抗遮挡模块对静态主体进行准确分解以提高可见度。合成数据和真实旅游照片集的实验结果表明,我们的方法不仅可以产生所需的外观,还可以从不同的角度渲染无遮挡的图像。

ConDA: Unsupervised Domain Adaptation for LiDAR Segmentation via Regularized Domain Concatenation
Authors Lingdong Kong, Niamul Quader, Venice Erin Liong
将从标记源域中学到的知识转移到原始目标域以进行无监督域自适应 UDA,对于自动驾驶系统的可扩展部署至关重要。 UDA 中最先进的方法通常采用一个关键概念,即利用来自具有地面实况的源域和具有伪标签的目标域的联合监督信号进行自我训练。在这项工作中,我们在这方面进行了改进和扩展。我们提出了 ConDA,这是一种用于 LiDAR 语义分割的基于串联的域适应框架,该框架 1 构建了一个由来自源域和目标域的细粒度交换信号组成的中间域,而不会破坏自我车辆周围对象和背景的语义一致性,2 利用中间域自我训练的领域。此外,为了改进源域上的网络训练和中间域上的自训练,我们提出了一个抗混叠正则化器和一个熵聚合器,以减少混叠伪影和嘈杂目标预测的不利影响。

NeRFReN: Neural Radiance Fields with Reflections
Authors Yuan Chen Guo, Di Kang, Linchao Bao, Yu He, Song Hai Zhang
神经辐射场 NeRF 使用基于坐标的神经场景表示实现了前所未有的视图合成质量。但是,NeRF 的视图依赖只能处理高光等简单反射,而无法处理玻璃和镜子等复杂反射。在这些场景中,NeRF 将虚拟图像建模为真实几何图形,这会导致深度估计不准确,并且在违反多视图一致性时会产生模糊渲染,因为反射对象可能仅在某些视点下可见。为了克服这些问题,我们引入了 NeRFReN,它建立在 NeRF 的基础上,用反射对场景进行建模。具体来说,我们建议将场景分成透射和反射分量,并使用单独的神经辐射场对这两个分量进行建模。考虑到这种分解受到高度约束,我们利用几何先验并应用精心设计的训练策略来实现合理的分解结果。对各种自捕获场景的实验表明,我们的方法在启用场景编辑应用程序的同时实现了高质量的新颖视图合成和物理声音深度估计结果。

Using a GAN to Generate Adversarial Examples to Facial Image Recognition
Authors Andrew Merrigan, Alan F. Smeaton
在线发布的图像存在隐私问题,因为它们可能被用作面部识别系统的参考示例。这种滥用图像的行为侵犯了隐私权,但很难反击。众所周知,可以为基于深度神经网络的识别系统创建对抗性示例图像。这些对抗性示例可用于破坏图像作为参考示例或训练数据的效用。在这项工作中,我们使用生成对抗网络 GAN 创建对抗样本来欺骗面部识别,我们在欺骗面部识别方面取得了可接受的成功率。我们的结果通过去除鉴别器组件减少了 GAN 的训练时间。

Point Cloud Instance Segmentation with Semi-supervised Bounding-Box Mining
Authors Yongbin Liao, Hongyuan Zhu, Yanggang Zhang, Chuangguan Ye, Tao Chen, Jiayuan Fan
随着深度学习的出现,点云实例分割取得了巨大的进步。然而,这些方法通常需要大量数据,并且需要昂贵且耗时的密集点云注释。为了降低注释成本,任务中对未标记或弱标记的数据的探索仍然较少。在本文中,我们介绍了第一个使用标记和未标记边界框作为监督的半监督点云实例分割框架 SPIB。具体来说,我们的 SPIB 架构涉及一个两阶段的学习过程。对于第一阶段,边界框提议生成网络在半监督设置下训练,具有扰动一致性正则化 SPCR。正则化通过在应用于输入点云的不同扰动上强制边界框预测的不变性来工作,为网络学习提供自我监督。对于第二阶段,使用 SPCR 的边界框建议被分组为一些子集,并且在每个子集中使用新的语义传播模块和属性一致性图模块挖掘实例掩码。此外,我们引入了一种新颖的占用率引导细化模块来细化实例掩码。

HRNET: AI on Edge for mask detection and social distancing
Authors Kinshuk Sengupta, Praveen Ranjan Srivastava
论文的目的是为社区抗击疫情提供创新的新兴技术框架。该论文提出了一种基于人工智能和边缘计算的独特爆发响应系统框架,用于以公民为中心的服务,以帮助跟踪和追踪人们在公共或工作场所设置中避开口罩检测和社会疏远措施等安全政策。该框架进一步提供了工业设置以及治理和联系人跟踪任务的实施指南。因此,采用该技术将引领智慧城市规划和发展,重点关注有助于提高生活质量的公民健康系统。提出的概念框架通过从研究人员的公共网站、GitHub 存储库和知名期刊收集的二次数据进行定量数据分析进行验证,并在 Microsoft Azure 云环境中对实验结果进行了进一步的基准测试。该研究包括用于基准分析的选择性 AI 模型,并针对大规模社会设置的边缘计算环境中的性能和准确性进行了评估。整体 YOLO 模型在对象检测任务中表现出色,并且对于掩码检测和 HRNetV2 的速度足以胜过应用于解决 AI 边缘推理环境设置中的社交距离任务的语义分割问题。该论文提出了新的 Edge AI 算法,用于构建面向技术的解决方案,用于检测人体运动和社交距离中的面具。该论文丰富了应用于社会和医疗系统问题的人工智能和边缘计算的技术进步。

NeeDrop: Self-supervised Shape Representation from Sparse Point Clouds using Needle Dropping
Authors Alexandre Boulch, Pierre Alain Langlois, Gilles Puy, Renaud Marlet
最近人们对隐式形状表示越来越感兴趣。与显式表示相反,它们没有分辨率限制,并且可以轻松处理各种表面拓扑。为了学习这些隐式表示,当前的方法依赖于一定级别的形状监督,例如内部外部信息或形状知识的距离,或者至少需要一个密集的点云来足够好地近似到形状的距离。相比之下,我们引入了方法 ,一种自监督方法,用于从可能极其稀疏的点云中学习形状表示。就像在布冯的针问题中一样,我们将样本针放在点云上,并认为从统计上讲,靠近表面,针的端点位于表面的相对两侧。不需要形状知识,点云可以非常稀疏,例如,作为车辆获取的激光雷达点云。以前的自监督形状表示方法无法在此类数据上产生高质量的结果。

Semi-Supervised 3D Hand Shape and Pose Estimation with Label Propagation
Authors Samira Kaviani, Amir Rahimi, Richard Hartley
为了获得 3D 注释,我们仅限于受控环境或合成数据集,导致我们使用 3D 数据集对现实世界场景的通用性较差。为了在半监督 3D 手形和姿势估计的背景下解决这个问题,我们提出了姿势对齐网络,将 3D 注释从标记帧传播到稀疏注释视频中附近的未标记帧。我们表明,在标记的未标记帧对上结合对齐监督使我们能够提高姿势估计的准确性。

Shunted Self-Attention via Multi-Scale Token Aggregation
Authors Sucheng Ren, Daquan Zhou, Shengfeng He, Jiashi Feng, Xinchao Wang
最近的 Vision Transformer ViT 模型在各种计算机视觉任务中都展示了令人鼓舞的结果,这要归功于它们通过自我注意对图像块或标记的长期依赖进行建模的能力。然而,这些模型通常指定每一层内每个标记特征的相似感受野。这种约束不可避免地限制了每个自注意力层捕获多尺度特征的能力,从而导致处理具有不同尺度的多个对象的图像时的性能下降。为了解决这个问题,我们提出了一种新颖的通用策略,称为分流自我注意 SSA,它允许 ViT 在每个注意力层的混合尺度上对注意力进行建模。 SSA 的关键思想是在计算自注意力矩阵之前将异构感受野大小注入令牌,它选择性地合并令牌以表示更大的对象特征,同时保留某些令牌以保留细粒度特征。这种新颖的合并方案使自注意力能够学习不同大小的对象之间的关系,同时减少令牌数量和计算成本。跨各种任务的大量实验证明了 SSA 的优越性。具体来说,基于 SSA 的 Transformer 在 ImageNet 上达到了 84.0 Top 1 的准确率,在模型大小和计算成本只有一半的情况下优于最先进的 Focal Transformer,并且在相似参数下在 COCO 上超过 Focal Transformer 1.3 mAP,在 ADE20K 上超过 2.9 mIOU和计算成本。

PlantStereo: A Stereo Matching Benchmark for Plant Surface Dense Reconstruction
Authors Qingyu Wang, Baojian Ma, Wei Liu, Mingzhao Lou, Mingchuan Zhou, Huanyu Jiang, Yibin Ying
立体匹配是计算机视觉中的一项重要任务,几十年来引起了极大的研究关注。而在视差精度、密度和数据大小方面,公共立体数据集难以满足模型的要求。在本文中,我们旨在解决数据集和模型之间的问题,并提出了一个名为 PlantStereo 的具有高精度视差地面实况的大规模立体数据集。我们在相机标定和图像配准后采用半自动方式构建数据集,可以从深度图像中获得高精度的视差图像。 PlantStereo 总共包含 812 个图像对,涵盖了菠菜、番茄、胡椒和南瓜等多种植物。我们首先在四种不同的立体匹配方法上评估了我们的 PlantStereo 数据集。对不同模型和植物的大量实验表明,与整数精度的ground truth相比,PlantStereo提供的高精度视差图像可以显着提高深度学习模型的训练效果。本文为实现植物表面密集重建提供了一种可行且可靠的方法。

SamplingAug: On the Importance of Patch Sampling Augmentation for Single Image Super-Resolution
Authors Shizun Wang, Ming Lu, Kaixin Chen, Jiaming Liu, Xiaoqi Li, Chuang zhang, Ming Wu
随着深度神经网络 DNN 的发展,已经提出了大量基于 DNN 的方法用于单图像超分辨率 SISR。然而,现有方法大多在均匀采样的 LR HR 补丁对上训练 DNN,这使得它们无法充分利用图像中的信息补丁。在本文中,我们提出了一种简单而有效的数据增强方法。我们首先设计了一个启发式度量来评估每个补丁对的信息重要性。为了降低所有补丁对的计算成本,我们进一步建议通过积分图像优化我们的度量计算,实现大约两个数量级的加速。使用我们的方法根据其信息重要性对训练补丁对进行采样。大量实验表明,我们的采样增强可以持续改进收敛并提高各种 SISR 架构的性能,包括 EDSR、RCAN、RDN、SRCNN 和 ESPCN,跨越不同的缩放因子 x2、x3、x4。

Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual Class Embedding
Authors Sungguk Cha, Yooseung Wang
全监督语义分割技术带来场景理解的范式转变。然而,昂贵的标签成本负担仍然是一个挑战。为了解决成本问题,最近的研究提出了基于语言模型的零镜头语义分割 L ZSSS 方法。在本文中,我们解决了 L ZSSS 在泛化方面的局限性,这是零镜头学习的优点。解决这个限制,我们提出了一种语言模型免费零镜头语义分割框架,空间和多尺度感知视觉类嵌入网络 SM VCENet。此外,利用面向视觉的类嵌入 SM VCENet 通过多尺度注意和空间注意丰富了类嵌入的视觉信息。我们还提出了一种用于零镜头语义分割的新基准 PASCAL2COCO,它通过域适应提供泛化评估并包含具有视觉挑战性的样本。

CRIS: CLIP-Driven Referring Image Segmentation
Authors Zhaoqing Wang, Yu Lu, Qiang Li, Xunqiang Tao, Yandong Guo, Mingming Gong, Tongliang Liu
参考图像分割旨在通过自然语言表达分割所指对象。由于文本和图像之间不同的数据属性,网络很难很好地对齐文本和像素级特征。现有方法使用预训练模型来促进学习,但从预训练模型中单独转移语言视觉知识,忽略多模态对应信息。受对比语言图像预训练 CLIP 最新进展的启发,在本文中,我们提出了一个端到端的 CLIP 驱动参考图像分割框架 CRIS。为了有效地传递多模态知识,CRIS 采用视觉语言解码和对比学习来实现文本到像素的对齐。更具体地说,我们设计了一个视觉语言解码器,将细粒度的语义信息从文本表示传播到每个像素级激活,这促进了两种模式之间的一致性。此外,我们将文本呈现给像素对比学习,以明确地强制执行与相关像素级特征相似而与不相关性不同的文本特征。在三个基准数据集上的实验结果表明,我们提出的框架在没有任何后处理的情况下显着优于最先进的性能。

Generative Convolution Layer for Image Generation
Authors Seung Park, Yong Goo Shin
本文介绍了一种新颖的卷积方法,称为生成卷积 GConv ,它简单而有效地提高了生成对抗网络 GAN 的性能。与标准卷积不同,GConv 首先选择与给定的潜在向量兼容的有用内核,然后将所选内核进行线性组合以制作潜在的特定内核。使用潜在的特定内核,所提出的方法产生潜在的特定特征,鼓励生成器生成高质量的图像。这种方法很简单,但非常有效。首先,GAN 的性能显着提高,同时增加了少量的硬件成本。其次,GConv 可以用于现有最先进的生成器,而无需修改网络架构。为了揭示 GConv 的优越性,本文提供了使用各种标准数据集的广泛实验,包括 CIFAR 10、CIFAR 100、LSUN Church、CelebA 和 tiny ImageNet。定量评估证明 GConv 在 Inception score IS 和 Frechet inception distance FID 方面显着提升了无条件和有条件 GAN 的性能。

CLIP Meets Video Captioners: Attribute-Aware Representation Learning Promotes Accurate Captioning
Authors Bang Yang, Yuexian Zou
对于视频字幕,预训练和微调已经成为事实上的范式,其中 ImageNet 预训练 INP 通常用于帮助编码视频内容,而面向任务的网络从头开始微调以应对字幕生成。将 INP 与最近提出的 CLIP Contrastive Language Image Pre training 进行比较,本文研究了 INP 用于视频字幕的潜在缺陷,并探讨了生成准确描述的关键。具体来说,我们对 INP 与 CLIP 的实证研究表明,INP 使视频字幕模型难以捕捉属性语义,并对不相关的背景信息敏感。相比之下,CLIP 在字幕质量方面的显着提升凸显了属性感知表示学习的重要性。因此,我们有动力引入双属性预测,这是一项辅助任务,需要视频字幕模型来学习视频内容和属性之间的对应关系以及属性之间的共现关系。

A Dataset-Dispersion Perspective on Reconstruction Versus Recognition in Single-View 3D Reconstruction Networks
Authors Yefan Zhou, Yiru Shen, Yujun Yan, Chen Feng, Yaoqing Yang
用于单视图 3D 重建 SVR 的神经网络 NN 越来越受欢迎。最近的工作指出,对于 SVR,大多数前沿神经网络在重建看不见的对象方面的性能有限,因为它们主要依赖于识别,即基于分类的方法而不是形状重建。为了深入理解这个问题,我们对神经网络何时以及为什么更喜欢识别而不是重建,反之亦然进行了系统研究。我们的发现表明,决定识别与重建的主要因素是训练数据的分散程度。因此,我们引入了分散分数,一种新的数据驱动指标,以量化这一主要因素并研究其对神经网络的影响。我们假设当训练图像更分散且训练形状更不分散时,NN 会偏向于识别。我们的假设得到了支持,并且通过我们在合成和基准数据集上的实验证明了分散分数是有效的。

MMPTRACK: Large-scale Densely Annotated Multi-camera Multiple People Tracking Benchmark
Authors Xiaotian Han, Quanzeng You, Chunyu Wang, Zhizheng Zhang, Peng Chu, Houdong Hu, Jiang Wang, Zicheng Liu
多摄像头跟踪系统在需要高质量跟踪结果的应用中越来越受欢迎,例如无摩擦结账,因为单目多对象跟踪 MOT 系统在杂乱拥挤的环境中经常因遮挡而失败。多个高度重叠的相机可以通过恢复部分 3D 信息来显着缓解问题。然而,创建具有不同相机设置和背景的高质量多相机跟踪数据集的成本限制了该领域的数据集规模。在本文中,我们借助自动注释系统在五种不同环境中提供了大规模密集标记的多相机跟踪数据集。该系统使用重叠和校准的深度和 RGB 相机构建高性能 3D 跟踪器,自动生成 3D 跟踪结果。使用相机参数将 3D 跟踪结果投影到每个 RGB 相机视图以创建 2D 跟踪结果。然后,我们手动检查和校正 3D 跟踪结果以确保标签质量,这比完全手动注释要便宜得多。我们使用两个实时多相机跟踪器和一个具有不同设置的人员重新识别 ReID 模型进行了广泛的实验。该数据集为杂乱拥挤环境中的多相机、多对象跟踪系统提供了更可靠的基准。此外,我们的结果表明,在该数据集上调整跟踪器和 ReID 模型显着提高了它们的性能。

AirObject: A Temporally Evolving Graph Embedding for Object Identification
Authors Nikhil Varma Keetha, Chen Wang, Yuheng Qiu, Kuan Xu, Sebastian Scherer
对象编码和识别对于自主探索、语义场景理解和重新定位等机器人任务至关重要。以前的方法试图跟踪对象或生成用于对象识别的描述符。然而,这样的系统仅限于从单一视点的固定部分对象表示。在机器人探索设置中,当机器人从多个视点观察对象时,需要构建一个随时间演化的全局对象表示。此外,鉴于现实世界中未知的新对象的广泛分布,对象识别过程必须与类别无关。在这种情况下,我们提出了一种新的时间 3D 对象编码方法,称为 AirObject,以获得基于全局关键点图的对象嵌入。具体来说,全局 3D 对象嵌入是使用时间卷积网络跨多个帧的结构信息生成的,这些信息是从基于图注意力的编码方法中获得的。我们证明 AirObject 实现了最先进的视频对象识别性能,并且对严重遮挡、感知混叠、视点偏移、变形和尺度变换具有鲁棒性,优于最先进的单帧和顺序描述符。

HEAT: Holistic Edge Attention Transformer for Structured Reconstruction
Authors Jiacheng Chen, Yiming Qian, Yasutaka Furukawa
本文提出了一种用于结构化重建的新型基于注意力的神经网络,它以二维光栅图像为输入,重建描绘底层几何结构的平面图。该方法检测角点并以端到端的方式对角点之间的边缘候选进行分类。我们的贡献是一种整体边缘分类架构,它 1 通过对其端点的三角位置编码来初始化边缘候选者的特征 2 通过可变形注意力将图像特征融合到每个边缘候选者 3 采用两个权重共享 Transformer 解码器来学习整体结构模式在图边缘候选者和 4 上使用掩码学习策略进行训练。角点检测器是边缘分类架构的一种变体,适用于对作为角点候选者的像素进行操作。我们对室外建筑结构和室内平面图重建两个结构化重建任务进行了实验。广泛的定性和定量评估表明我们的方法优于现有技术。

Robust 3D Garment Digitization from Monocular 2D Images for 3D Virtual Try-On Systems
Authors Sahib Majithia, Sandeep N. Parameswaran, Sadbhavana Babar, Vikram Garg, Astitva Srivastava, Avinash Sharma
在本文中,我们开发了一种强大的 3D 服装数字化解决方案,可以很好地概括具有布料纹理遮挡和大型身体姿势变化的现实世界时尚目录图像。我们假设了已知类型服装(例如 T 恤、裤子)的固定拓扑参数模板网格模型,并执行从输入目录图像到与服装参数网格模型对应的 UV 贴图面板的高质量纹理映射。我们通过首先预测服装边界上的一组稀疏 2D 地标来实现这一点。随后,我们使用这些地标在 UV 贴图面板上执行基于薄板样条线的纹理传输。随后,我们使用深度纹理修复网络来填充由于 TPS 输出中的视图变化自遮挡而产生的大洞,以生成一致的 UV 贴图。此外,为了训练用于标志性预测纹理修复任务的监督深度网络,我们生成了大量具有不同纹理和光照的合成数据,这些数据从各种视图中成像,人类以各种姿势出现。此外,我们手动注释了从在线时尚电子商务平台爬取的一小组时尚目录图像以进行微调。我们进行了彻底的实证评估,并在时尚目录图像上展示了我们提出的 3D 服装纹理解决方案的令人印象深刻的定性结果。

Anonymization for Skeleton Action Recognition
Authors Myeonghyeon Kim, Zhenyue Qin, Yang Liu, Dongwoo Kim
由于数据集的轻量级、紧凑性,基于骨架的动作识别吸引了从业者和研究人员。与基于RGB视频的动作识别相比,基于骨架的动作识别是一种更安全的保护主体隐私的方式,同时具有竞争性的识别性能。然而,由于骨架估计算法以及运动和深度传感器的改进,可以在骨架数据集中保留更多的运动特征细节,从而导致数据集潜在的隐私泄露。为了调查骨架数据集的潜在隐私泄漏,我们首先训练一个分类器来对关节轨迹中的敏感隐私信息进行分类。实验表明,经过训练的性别分类模型可以以 88 的准确率进行预测,并以 82 的准确率重新识别一个人。我们提出了两种匿名化算法的变体,以保护骨架数据集的潜在隐私泄漏。

A Unified Pruning Framework for Vision Transformers
Authors Hao Yu, Jianxin Wu
最近,视觉变换器 ViT 及其变体在各种计算机视觉任务中取得了令人鼓舞的性能。然而,ViT 的高计算成本和训练数据要求限制了它们在资源受限环境中的应用。模型压缩是加速深度学习模型的有效方法,但对压缩 ViTs 的研究较少。之前的很多工作都集中在减少代币的数量上。然而,这条攻击线打破了 ViTs 的空间结构,很难推广到下游任务中。在本文中,我们为 ViTs 及其变体的结构修剪设计了一个统一的框架,即 UP ViTs。我们的方法侧重于修剪所有 ViT 组件,同时保持模型结构的一致性。大量的实验结果表明,我们的方法可以在压缩的 ViTs 和变体上实现高精度,例如,UP DeiT T 在 ImageNet 上实现了 75.79 的准确度,在相同的计算成本下比 vanilla DeiT T 高 3.59。 UP PVTv2 B0 将 PVTv2 B0 在 ImageNet 分类中的准确率提高了 4.83。

In-Bed Human Pose Estimation from Unseen and Privacy-Preserving Image Domains
Authors Ting Cao, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt Aristizabal
医学应用受益于计算机视觉的快速发展。特别是对于患者监测,在床上人体姿势估计提供了重要的健康相关指标,在医疗状况评估中具有潜在价值。尽管在该领域取得了很大进展,但由于遮挡期间存在大量歧义,并且缺乏用于模型训练的大量手动标记数据,特别是热红外成像等隐私保护领域,因此它仍然是一项具有挑战性的任务。兴趣。受自监督方法在直接从数据中学习特征的有效性的启发,我们提出了一种多模态条件变分自动编码器 MC VAE,能够从训练期间看到的缺失模态重建特征。这种方法与 HRNet 一起使用,以启用单模态推理以进行床上姿势估计。通过广泛的评估,我们证明可以从可用的模式中有效地识别身体位置,与高度依赖于在推理时访问多种模式的基线模型取得同等结果。

Pyramid Adversarial Training Improves ViT Performance
Authors Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun
积极的数据增强是 Vision Transformer ViT 强大泛化能力的关键组成部分。一种这样的数据增强技术是对抗性训练,然而,许多先前的工作表明,这通常会导致清洁精度不佳。在这项工作中,我们提出了金字塔对抗训练,这是一种简单而有效的技术,可以提高 ViT 的整体性能。我们将它与匹配的 Dropout 和随机深度正则化配对,它对干净和对抗样本采用相同的 Dropout 和随机深度配置。与 AdvProp 对 CNN 的改进不直接适用于 ViT 类似,我们的金字塔对抗训练打破了 ViT 和相关架构的分布准确性和分布鲁棒性之间的权衡。当仅在 ImageNet 1K 数据上进行训练时,ViT B 模型的 ImageNet 清洁精度绝对提高了 1.82,同时通过从 1.76 到 11.45 的绝对数字提高了 7 个 ImageNet 稳健性指标的性能。我们在没有额外数据的情况下为 ImageNet C 41.4 mCE、ImageNet R 53.92 和 ImageNet Sketch 41.04 设置了最先进的技术,仅使用 ViT B 16 主干和我们的 Pyramid Adversarial Training。

Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction
Authors Lingbo Liu, Zewei Yang, Guanbin Li, Kuo Wang, Tianshui Chen, Liang Lin
陆地遥感分析是地球科学的一项重要研究。在这项工作中,我们专注于土地分析的一项具有挑战性的任务,即从遥感数据中自动提取交通道路,这在城市发展和扩张估计中具有广泛的应用。然而,传统方法要么仅利用航拍图像的有限信息,要么简单地融合多模态信息,例如车辆轨迹,因此无法很好地识别无约束道路。为了解决这个问题,我们引入了一种称为跨模态消息传播网络 CMMPNet 的新型神经网络框架,它充分利用了互补的不同模态数据,即航拍图像和众包轨迹。具体来说,CMMPNet 由两个用于模态特定表示学习的深度自动编码器和一个量身定制的双增强模块组成,用于跨模态表示细化。特别是,每种模态的补充信息被全面提取并动态传播,以增强另一种模态的表示。在三个真实世界基准测试中的大量实验证明了我们的 CMMPNet 在鲁棒道路提取方面的有效性,受益于混合不同的模态数据,无论是使用图像和轨迹数据还是图像和激光雷达数据。

ePose: Let's Make EfficientPose More Generally Applicable
Authors Austin Lally, Robert Bain, Mazen Alotaibi
EfficientPose 是一个令人印象深刻的 3D 对象检测模型。它已被证明是快速、可扩展和准确的,尤其是考虑到它仅使用 RGB 输入时。在本文中,我们尝试通过赋予 EfficientPose 推断对象大小的能力并简化数据收集和损失计算来改进 EfficientPose。我们使用 Linemod 数据集及其名为 Occlusion 1 类的新子集评估了 ePose。我们还概述了在 NuScenes 和 2017 KITTI 3D 对象检测数据集上使用 ePose 的当前进展和想法。

LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human Bodies
Authors Sandro Lombardi, Bangbang Yang, Tianxing Fan, Hujun Bao, Guofeng Zhang, Marc Pollefeys, Zhaopeng Cui
人体的 3D 表示和重建在计算机视觉中已经研究了很长时间。传统方法主要依赖参数统计线性模型,将可能物体的空间限制为线性组合。直到最近,一些方法才尝试利用神经隐式表示进行人体建模,虽然展示了令人印象深刻的结果,但它们要么受到表示能力的限制,要么没有物理意义和可控性。在这项工作中,我们为人体提出了一种新的神经隐式表示,它是完全可微的,并且可以通过解开的形状和姿势潜在空间进行优化。与之前的工作相反,我们的表示是基于运动学模型设计的,这使得表示对于姿势动画等任务是可控的,同时允许为 3D 拟合和姿势跟踪等任务优化形状和姿势。我们的模型可以直接在非防水原始数据上进行训练和微调,并具有精心设计的损失。

Automatic tracing of mandibular canal pathways using deep learning
Authors Mrinal Kanti Dhar, Zeyun Yu
医疗行业对自动化检测和定位系统的需求不断增加,否则手动效率低下。在牙科中,准确追踪下颌管的路径具有极大的兴趣。围绕下牙槽神经 IAN 的下颌管位置的正确定位可降低在种植牙过程中损坏下颌管的风险。就时间和劳动力而言,人工检测运河路径并不是一种有效的方式。在这里,我们提出了一个基于深度学习的框架来从 CBCT 数据中检测下颌管。这是一个全自动端到端的 3 阶段过程。基本事实是在预处理阶段生成的。我们没有使用常用的固定直径管状地面实况,而是生成下颌管的中心线,并将它们用作训练过程中的地面实况。 3D U Net 架构用于模型训练。开发了一个有效的后处理阶段来纠正初始预测。测量精度、召回率、F1 分数和 IoU 以分析体素级分割性能。然而,为了分析基于距离的测量,计算了从地面实况到预测和预测到地面实况的平均曲线距离 MCD。

EAGAN: Efficient Two-stage Evolutionary Architecture Search for GANs
Authors Guohao Ying, Xin He, Bin Gao, Bo Han, Xiaowen Chu
生成对抗网络 GAN 已被证明在图像生成任务中取得了巨大成功,但 GAN 训练存在不稳定的问题。许多工作通过手动修改 GAN 架构来提高 GAN 训练的稳定性,这需要人类的专业知识和广泛的反复试验。因此,旨在使模型设计自动化的神经架构搜索 NAS 已被应用于搜索 GAN 以执行无条件图像生成任务。早期的 NAS GAN 仅使用搜索生成器来降低难度。最近的一些工作尝试同时搜索生成器 G 和判别器 D 以提高 GAN 性能,但它们在搜索过程中仍然受到 GAN 训练的不稳定性的困扰。为了缓解不稳定性问题,我们提出了一种高效的两阶段进化算法基于 EA 的 NAS 框架来发现 GAN,称为 textbf EAGAN。具体来说,我们将 G 和 D 的搜索解耦为两个阶段,并提出权重重置策略以提高 GAN 训练的稳定性。此外,我们执行进化操作以产生基于多个目标的帕累托前沿架构,从而产生 G 和 D 的优越组合。通过利用权重共享策略和低保真评估,EAGAN 可以显着缩短搜索时间。

SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches
Authors Yu Zeng, Zhe Lin, Vishal M. Patel
基于草图的图像处理是一项交互式图像编辑任务,可根据用户输入的草图修改图像。现有方法通常将此任务表述为条件修复问题,这需要用户绘制一个额外的蒙版,指示除草图之外的要修改的区域。遮罩区域被视为孔洞,并由以草图为条件的修复模型填充。使用此公式,可以通过随机创建掩码和提取边缘或轮廓来轻松获得成对的训练数据。虽然这种设置简化了数据准备和模型设计,但它使用户交互复杂化并丢弃了屏蔽区域中的有用信息。为此,我们研究了一种新的基于草图的图像处理无掩模局部图像处理范式,它只需要用户的草图输入并利用整个原始图像。给定图像和草图,我们的模型自动预测目标修改区域并将其编码为结构不可知的样式向量。然后生成器根据样式向量和草图合成新的图像内容。最终通过将生成器输出混合到原始图像的修改区域中来生成操纵图像。我们的模型可以通过从样式向量和草图学习图像区域的重建以自我监督的方式进行训练。所提出的方法为基于草图的图像处理提供了更简单、更直观的用户工作流程,并提供了比以前的方法更好的结果。

Unsupervised Domain Generalization for Person Re-identification: A Domain-specific Adaptive Framework
Authors Lei Qi, Lei Wang, Yinghuan Shi, Xin Geng
领域泛化DG最近在人重新识别ReID中备受关注。它旨在使在多个源域上训练的模型泛化到一个看不见的目标域。尽管取得了可喜的进展,但现有方法通常需要标记源域,这对于实际的 ReID 任务来说可能是一个重大负担。

Hole-robust Wireframe Detection
Authors Naejin Kong, Kiwoong Park, Harshith Goka
线框是一种基于线段的表示,旨在很好地捕捉我们周围规则的、结构形状的人造场景的大规模视觉特性。与线框不同,传统的边或线段关注所有可见的边和线,而没有特别区分哪些对人造结构信息更显着。现有的线框检测模型依赖于监督标注数据,但没有明确关注如何组合场景的结构形状。此外,我们经常面临许多遮挡背景场景的前景物体会干扰对它们背后的完整场景结构的正确推断。为了解决这些问题,我们首次在该领域提出了新的条件数据生成和训练,以帮助模型理解如何忽略孔所指示的遮挡,例如图像上被掩盖的前景对象区域。此外,我们首次在模型中结合了 GAN,让模型甚至可以在大洞之外更好地预测底层场景结构。我们还引入了伪标签以进一步扩大模型容量以克服小规模的标记数据。

Camera Distortion-aware 3D Human Pose Estimation in Video with Optimization-based Meta-Learning
Authors Hanbyel Cho, Yooshin Cho, Jaemyung Yu, Junmo Kim
在无失真数据集上训练的现有 3D 人体姿态估计算法在应用于具有特定相机失真的新场景时会出现性能下降。在本文中,我们提出了一种简单而有效的视频中 3D 人体姿态估计模型,该模型可以利用 MAML(一种代表性的基于优化的元学习算法)快速适应任何失真环境。我们将特定失真中的一系列 2D 关键点视为 MAML 的单个任务。然而,由于在失真环境中缺乏大规模数据集,我们提出了一种从未失真的二维关键点生成合成失真数据的有效方法。对于评估,我们假设两种实际测试情况,具体取决于运动捕捉传感器是否可用。特别是,我们提出了使用骨骼长度对称性和一致性的推理阶段优化。广泛的评估表明,我们提出的方法成功地适应了测试阶段的不同程度的失真,并且优于现有的最先进的方法。

AssistSR: Affordance-centric Question-driven Video Segment Retrieval
Authors Stan Weixian Lei, Yuxuan Wang, Dongxing Mao, Difei Gao, Mike Zheng Shou
手机上的AI助手和AR眼镜可以帮助我们解决日常生活中的问题,例如如何调整这款手表的日期以及如何在指向烤箱时设置其加热时间,这仍然是一个白日梦。传统任务中使用的查询,即视频问答、视频检索、时刻定位通常是基于纯文本的事实。相比之下,我们提出了一项名为 Affordance centric Questiondriven Video Segment Retrieval AQVSR 的新任务。我们的每个问题都是一个图像框文本查询,专注于我们日常生活中项目的可供性,并期望从教学视频转录片段的语料库中检索相关的答案片段。为了支持这项 AQVSR 任务的研究,我们构建了一个名为 AssistSR 的新数据集。我们设计新颖的指南来创建高质量的样品。该数据集包含 1.4k 多模态问题,涉及来自不同日常使用项目的教学视频的 1k 视频片段。为了解决 AQVSR,我们开发了一个简单而有效的模型,称为 Dual Multimodal Encoders DME,它明显优于几种基线方法,同时在未来仍有很大的改进空间。此外,我们提供了详细的消融分析。

Adaptive Gating for Single-Photon 3D Imaging
Authors Ryan Po, Adithya Pediredla, Ioannis Gkioulekas
单光子雪崩二极管 SPAD 在深度传感任务中越来越受欢迎。然而,由于堆积的影响,SPAD 在高环境光下仍然挣扎。传统技术利用固定或异步门控来最小化堆积效应,但这些门控方案都是非自适应的,因为它们无法将场景先验和先前光子检测等因素纳入其门控策略。我们提出了一种基于 Thompson 采样的自适应门控方案。自适应门控会根据先前的光子观察定期更新门控位置,以最大限度地减少深度误差。

Hyperspectral Image Segmentation based on Graph Processing over Multilayer Networks
Authors Songyang Zhang, Qinwen Deng, Zhi Ding
高光谱成像是一种重要的传感技术,在环境科学、天气和地球空间探索等领域具有广泛的应用和影响。高光谱图像 HSI 处理的一项重要任务是提取光谱空间特征。利用最近开发的多层网络 M GSP 上的图信号处理,这项工作提出了几种基于 M GSP 特征提取的 HSI 分割方法。为了捕获联合光谱空间信息,我们首先为 HSI 定制一个基于张量的多层网络 MLN 模型,并定义一个 MLN 奇异空间用于特征提取。然后,我们通过利用 MLN 谱聚类开发了一种无监督的 HSI 分割方法。通过基于 MLN 的聚类重新组合 HSI 像素,我们进一步提出了一种基于超像素多分辨率融合的半监督 HSI 分类。

Neural Attention for Image Captioning: Review of Outstanding Methods
Authors Zanyar Zohourianshahzadi, Jugal K. Kalita
图像字幕是自动生成句子的任务,以尽可能最好的方式描述输入图像。自动生成图像标题最成功的技术最近使用了细心的深度学习模型。具有注意力的深度学习模型的设计方式存在差异。在本次调查中,我们回顾了与用于图像字幕的细心深度学习模型相关的文献。我们没有提供对深度图像字幕模型的所有先前工作的全面回顾,而是解释用于深度学习模型中图像字幕任务的各种类型的注意机制。用于图像字幕的最成功的深度学习模型遵循编码器解码器架构,尽管这些模型采用注意力机制的方式存在差异。通过对图像字幕的不同注意力深度模型的性能结果的分析,我们的目标是在图像字幕的深度模型中找到最成功的注意力机制类型。软注意力、自下而上注意力和多头注意力是在最先进的注意力深度学习模型中广泛使用的注意力机制类型,用于图像字幕。

Deformable ProtoPNet: An Interpretable Image Classifier Using Deformable Prototypes
Authors Jon Donnelly, Alina Jade Barnett, Chaofan Chen
机器学习已被广​​泛应用于许多领域,包括医疗保健、金融和刑事司法等高风险应用。为了解决公平性、问责制和透明度问题,机器学习模型在这些关键领域做出的预测必须是可解释的。一项工作通过整合深度神经网络的力量和基于案例推理的可解释性来解决这一挑战,以生成准确但可解释的图像分类模型。这些模型通常通过将输入图像与训练期间学习的原型进行比较来对输入图像进行分类,从而以这种形式产生解释。然而,这一系列工作的方法使用空间刚性原型,无法明确解释姿势变化。在本文中,我们通过提出一种基于案例的可解释神经网络来解决这个缺点,该网络提供空间灵活的原型,称为可变形原型部分网络 Deformable ProtoPNet。在 Deformable ProtoPNet 中,每个原型由几个原型部分组成,这些部分根据输入图像自适应地改变它们的相对空间位置。这使每个原型能够检测具有更高空间变换容差的对象特征,因为原型中的部件可以移动。因此,可变形 ProtoPNet 可以明确捕捉姿势变化,提高模型准确性和提供的解释的丰富性。

MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction
Authors Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp
预测道路使用者的未来行为是自动驾驶中最具挑战性和重要的问题之一。将深度学习应用于这个问题需要以丰富的感知信号和地图信息的形式融合异构世界状态,并推断可能的未来的高度多模态分布。在本文中,我们介绍了 MultiPath,这是一种未来预测模型,可在流行的基准测试中实现最先进的性能。 MultiPath 通过重新审视许多设计选择来改进 MultiPath 架构。第一个关键设计差异是从基于密集图像的输入世界状态编码,转而支持异构场景元素的稀疏编码 MultiPath 使用紧凑且高效的折线来描述道路特征,以及直接的原始代理状态信息,例如位置、速度,加速度。我们提出了这些元素的上下文感知融合,并开发了一个可重用的多上下文门控融合组件。其次,我们重新考虑了预定义的静态锚的选择,并开发了一种在模型中端到端地学习潜在锚嵌入的方法。最后,我们探索了其他 ML 领域中常见的集成和输出聚合技术,并为我们的概率多模态输出表示找到了有效的变体。

Image denoising by Super Neurons: Why go deep?
Authors Junaid Malik, Serkan Kiranyaz, Moncef Gabbouj
经典的图像去噪方法利用非局部自相似原理从噪声图像中有效地恢复图像内容。当前最先进的方法使用深度卷积神经网络 CNN 来有效地学习从嘈杂图像到干净图像的映射。由于大量级联隐藏层产生的大感受野,深度去噪 CNN 表现出高学习能力并整合非局部信息。然而,深度网络在计算上也很复杂,需要大量数据进行训练。为了解决这些问题,本研究将重点放在由新型神经元模型授权的自组织操作神经网络自 ONN 上,该模型可以通过紧凑而浅的模型实现类似或更好的去噪性能。最近,引入了超级神经元的概念,它通过利用非局部内核位置来增强感受野大小来增强生成神经元的非线性变换。这是导致需要深度网络配置的关键成就。由于已知非局部信息的集成有利于去噪,因此在这项工作中,我们研究了超级神经元在合成和现实世界图像去噪中的使用。我们还讨论了在 GPU 上实现超级神经元模型的实际问题,并提出了非本地化操作的异构性和计算复杂性之间的权衡。我们的结果表明,在宽度和深度相同的情况下,具有超级神经元的 Self ONN 比具有生成神经元和卷积神经元的网络在两种去噪任务中都提供了显着的去噪性能提升。

Morph Detection Enhanced by Structured Group Sparsity
Authors Poorya Aghdaie, Baaria Chaudhary, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi
在本文中,我们考虑了人脸变形攻击的挑战,它大大破坏了人脸识别系统的完整性,例如用于边境保护机构的人脸识别系统。变形检测可以被表述为提取细粒度表示,其中利用局部判别特征来学习假设。为了获得不同粒度的判别特征以及解耦的光谱信息,我们利用小波域分析来深入了解变形人脸的空间频率内容。因此,我们不使用 RGB 域中的图像,而是使用 2D 小波分解将每个图像分解为其小波子带,并采用深度监督特征选择方案来找到输入图像中最具辨别力的小波子带。为此,我们使用变形图像和真实图像的分解小波子带训练深度神经网络 DNN 变形检测器。在训练阶段,我们的结构化组稀疏约束 DNN 从所有子带中挑选最具辨别力的小波子带,我们重新训练我们的 DNN,从而在对探测图像进行推理时精确检测变形图像。

How Facial Features Convey Attention in Stationary Environments
Authors Janelle Domantay
意识检测技术在最常用于驾驶员疲劳检测的各种企业中越来越受到关注,最近的研究已转向使用计算机视觉技术来分析用户在在线教室等环境中的注意力。本文旨在通过分析哪些视觉特征最有助于预测意识和疲劳来扩展先前对注意力分散检测的研究。我们利用开源面部分析工具包 OpenFace 来分析不同注意力水平的受试者的视觉数据。然后,使用支持向量机 SVM,我们创建了几个用于用户注意力的预测模型,并将定向梯度直方图 HOG 和动作单元确定为我们测试的特征的最大预测器。我们还将这种 SVM 的性能与利用卷积和/或循环神经网络 CNN 和 CRNN 的深度学习方法进行了比较。有趣的是,CRNN 的表现似乎并没有明显优于 CNN。

Equitable modelling of brain imaging by counterfactual augmentation with morphologically constrained 3D deep generative models
Authors Guilherme Pombo, Robert Gray, Jorge Cardoso, Sebastien Ourselin, Geraint Rees, John Ashburner, Parashkev Nachev
我们描述了 Countersynth,这是一种微分变形的条件生成模型,可诱导体积大脑图像中标签驱动的、生物学上合理的变化。该模型旨在为下游判别建模任务综合反事实训练数据增强,其中保真度受到数据不平衡、分布不稳定性、混淆或规格不足的限制,并且在不同的亚群中表现出不公平的性能。关注人口统计属性,我们使用基于体素的形态测量学、条件属性的分类和回归以及 Fr chet 起始距离来评估合成反事实的质量。在工程人口不平衡和混杂的背景下检查下游辨别性能,我们使用 UK Biobank 磁共振成像数据对 CounterSynth 增强与这些问题的当前解决方案进行对比。我们在整体保真度和公平性方面都实现了最先进的改进。

Learning Multiple Dense Prediction Tasks from Partially Annotated Data
Authors Wei Hong Li, Xialei Liu, Hakan Bilen
尽管最近在密集预测问题的多任务学习方面取得了进展,但大多数方法依赖于昂贵的标记数据集。在本文中,我们提出了一种标签有效的方法,并着眼于对部分标注数据的多个密集预测任务的联合学习,我们称之为多任务部分监督学习。我们提出了一种多任务训练程序,当数据被部分注释时,该程序成功地利用任务关系来监督其多任务学习。特别是,我们学习将每个任务对映射到一个联合成对任务空间,这使得它们之间能够通过以任务对为条件的另一个网络以计算高效的方式共享信息,并通过保留有关输入的高级信息来避免学习琐碎的跨任务关系图片。

DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation
Authors Lukas Hoyer, Dengxin Dai, Luc Van Gool
由于获取用于语义分割的真实世界图像的像素级注释是一个代价高昂的过程,因此可以使用更易于访问的合成数据训练模型,并在不需要注释的情况下适应真实图像。在无监督域适应 UDA 中研究了这个过程。尽管大量方法提出了新的适应策略,但它们大多基于过时的网络架构。由于尚未系统研究近期网络架构的影响,我们首先对 UDA 的不同网络架构进行基准测试,然后基于基准测试结果提出一种新的 UDA 方法 DAFormer。 DAFormer 网络由一个 Transformer 编码器和一个多级上下文感知特征融合解码器组成。它通过三个简单但至关重要的训练策略来稳定训练并避免将 DAFormer 过度拟合到源域而源域上的稀有类采样通过减轻自训练对常见类的确认偏差来提高伪标签的质量,事物类 ImageNet 特征距离和学习率预热促进了 ImageNet 预训练的特征转移。 DAFormer 将 GTA Cityscapes 的最新性能显着提高了 10.8 mIoU,Synthia Cityscapes 的性能提高了 5.4 mIoU,甚至可以很好地学习火车、公共汽车和卡车等困难课程。

MIST-net: Multi-domain Integrative Swin Transformer network for Sparse-View CT Reconstruction
Authors Jiayi Pan, Weiwen Wu, Zhifan Gao, Heye Zhang
近年来,基于深度学习的断层图像重建备受关注。稀疏视图数据重建是典型的欠定逆问题之一,如何从几十个投影中重建高质量的CT图像在实践中仍然是一个挑战。为了应对这一挑战,在本文中,我们提出了一个多域集成 Swin Transformer 网络 MIST net 。首先,提出的 MIST 网络使用灵活的网络架构从数据、残差数据、图像和残差图像中结合了丰富的域特征。在这里,残差数据和残差图像域网络组件可以被视为数据一致性模块,以消除残差数据和图像域中的插值误差,进而保留图像细节。其次,为了检测图像特征并进一步保护图像边缘,将可训练的 Sobel 滤波器纳入网络以提高编码解码能力。第三,利用经典的 Swin 变换器,我们进一步设计了高质量的重构变换器,即 Recformer,以提高重构性能。 Recformer 继承了 Swin Transformer 的强大功能,可以捕捉重建图像的全局和局部特征。在具有 48 个视图的数值数据集上的实验表明,我们提出的 MIST 网络提供了更高的重建图像质量,与其他竞争对手(包括高级展开网络)相比,具有较小的特征恢复和边缘保护。定量结果表明,我们的 MIST 网络也获得了最佳性能。

Exponentially Tilted Gaussian Prior for Variational Autoencoder
Authors Griffin Floto, Stefan Kremer, Mihai Nica
深度神经网络拥有的一个重要特性是能够对以前看不见的数据执行鲁棒的分布外检测 OOD。在为实际应用程序部署模型时,此属性对于安全目的至关重要。最近的研究表明,概率生成模型在这项任务上表现不佳,这令人惊讶,因为它们试图估计训练数据的可能性。为了缓解这个问题,我们为变分自编码器 VAE 提出了指数倾斜的高斯先验分布。有了这个先验,我们能够仅使用 VAE 自然分配的负对数似然来获得最先进的结果,同时比某些竞争方法快几个数量级。我们还表明,我们的模型产生了比标准高斯 VAE 更清晰的高质量图像样本。

Learning to Transfer for Traffic Forecasting via Multi-task Learning
Authors Yichao Lu
深度神经网络在短期交通预测中表现出卓越的性能。然而,大多数现有的交通预测系统假设训练和测试数据来自相同的底层分布,这限制了它们的实际适用性。 NeurIPS 2021 Traffic4cast 挑战是同类挑战中的第一个,致力于对流量预测模型在空间和时间领域的变化方面的稳健性进行基准测试。这份技术报告描述了我们应对这一挑战的解决方案。特别是,我们提出了一个多任务学习框架,用于交通预测模型的时空域适应。实验结果表明,我们的多任务学习方法实现了强大的经验性能,优于许多基线域适应方法,同时保持高效。

Gram Barcodes for Histopathology Tissue Texture Retrieval
Authors Shalev Lifshitz, Abtin Riasatian, H.R. Tizhoosh
数字病理学的最新进展导致需要组织病理学图像检索 HIR 系统,该系统搜索活检图像数据库以查找与给定查询图像相似的病例。这些 HIR 系统允许病理学家轻松有效地访问数千个先前诊断的病例,以便利用相应病理报告中的知识。由于 HIR 系统可能必须处理数百万个千兆像素的图像,因此必须能够提取紧凑且富有表现力的图像特征,以实现高效准确的检索。在本文中,我们建议将 Gram 条形码应用为 HIR 系统的图像特征。与大多数特征生成方案不同,Gram 条形码基于高阶统计数据,通过总结卷积神经网络层中不同特征图之间的相关性来描述组织纹理。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


Interesting:

📚, (from )

📚, (from )

📚, (from )

📚, (from )

📚, (from )


pic from pexels.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值