AI视野·今日CS.CV 计算机视觉论文速览
Wed, 20 Sep 2023
Totally 95 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes Authors Xiao Fu, Shangzhan Zhang, Tianrun Chen, Yichong Lu, Xiaowei Zhou, Andreas Geiger, Yiyi Liao 训练自动驾驶汽车的感知系统需要大量注释。然而,二维图像中的手动标记是高度劳动密集型的。虽然现有数据集为预先记录的序列提供了丰富的注释,但它们在标记很少遇到的观点方面存在不足,可能会阻碍感知模型的泛化能力。在本文中,我们提出了 PanopticNeRF 360,这是一种新颖的方法,它将粗略的 3D 注释与嘈杂的 2D 语义线索相结合,从任何角度生成一致的全景标签和高质量图像。我们的主要见解在于利用 3D 和 2D 先验的互补性来相互增强几何和语义。具体来说,我们建议利用 3D 和 2D 空间中的噪声语义和实例标签来指导几何优化。同时,改进的几何结构通过学习的语义场将 3D 和 2D 注释合并到 3D 空间中,有助于过滤 3D 和 2D 注释中存在的噪声。为了进一步增强外观,我们结合 MLP 和哈希网格来产生混合场景特征,在高频外观和主要连续语义之间取得平衡。我们的实验证明,在 KITTI 360 数据集的具有挑战性的城市场景中,PanopticNeRF 360 的性能优于现有标签传输方法。此外,PanopticNeRF 360 能够实现高保真、多视图和时空一致的外观、语义和实例标签的全方位渲染。 |
PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance Authors Peiqing Yang, Shangchen Zhou, Qingyi Tao, Chen Change Loy 利用预先训练的扩散模型进行恢复最近已成为传统任务特定训练方法的首选替代方案。以前的工作通过使用显式退化模型限制解决方案空间取得了显着的成功。然而,这些方法在面对复杂的退化时往往会出现不足,因为它们通常无法精确建模。在本文中,我们通过引入部分指导来提出 PGDiff,这是一种比现有作品更适应现实世界退化的新视角。我们的方法不是专门定义退化过程,而是对所需的属性进行建模,例如高质量图像的图像结构和颜色统计,并在反向扩散过程中应用此指导。这些属性很容易获得,并且不对降解过程做出任何假设。当与扩散先验相结合时,这种部分指导可以在一系列恢复任务中提供有吸引力的结果。此外,PGDiff 可以扩展为通过整合多个高质量图像属性来处理复合任务,这是通过集成各个任务的指导来实现的。 |
Language as the Medium: Multimodal Video Classification through text only Authors Laura Hanu, Anita L. Ver , James Thewlis 尽管多模态机器学习模型出现了令人兴奋的新浪潮,但当前的方法仍然难以解释视频中存在的不同模态之间复杂的上下文关系。超越强调简单活动或对象的现有方法,我们提出了一种新的模型不可知方法,用于生成捕获多模态视频信息的详细文本描述。我们的方法利用大型语言模型(例如 GPT 3.5 或 Llama2)学到的广泛知识来推理从 BLIP 2、Whisper 和 ImageBind 获得的视觉和听觉模态的文本描述。无需对视频文本模型或数据集进行额外的微调,我们证明可用的法学硕士能够使用这些多模态文本描述作为视觉或听觉的代理,并在上下文中对视频进行零样本多模态分类。我们对流行的动作识别基准(例如 UCF 101 或 Kinetics)的评估表明,这些上下文丰富的描述可以成功地用于视频理解任务。 |
MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings Authors Surbhi Madan, Rishabh Jain, Gulshan Sharma, Ramanathan Subramanian, Abhinav Dhall 身体行为语言是一种重要的社交线索,其自动分析有助于增强对人工智能系统的理解。此外,行为语言线索对于积极参与基于社交代理的用户交互至关重要。尽管计算机视觉在头部和身体姿势估计等任务方面取得了进展,但仍然需要探索对手势、梳理或摸索等更精细行为的检测。本文提出了一种名为 MAGIC TBR 的多视图注意力融合方法,该方法通过基于变压器的方法将从视频中提取的特征及其相应的离散余弦变换系数结合起来。实验在 BBSI 数据集上进行,结果证明了所提出的多视图注意力特征融合的有效性。 |
SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction Authors Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Fabien Baradel, Salma Galaaoui, Romain Bregier, Matthieu Armando, Jean Sebastien Franco, Gregory Rogez 最近的手部对象交互数据集显示真实对象的可变性有限,并且依赖于拟合 MANO 参数模型来获得真实的手部形状。为了超越这些限制并促进进一步的研究,我们引入了 SHOWMe 数据集,该数据集由 96 个视频组成,并用真实且详细的手部对象 3D 纹理网格进行注释。在最近的工作之后,我们考虑了一个刚性手对象场景,其中手相对于对象的姿势在整个视频序列期间保持不变。这一假设使我们能够将亚毫米级精确的地面实况 3D 扫描注册到 SHOWMe 中的图像序列。尽管更简单,但该假设对于所需的准确性和详细程度很重要的应用而言是有意义的,例如人类机器人协作中的对象移交、对象扫描或操纵和接触点分析。重要的是,手持物体系统的刚性允许使用由刚性配准步骤和随后的多视图重建 MVR 部分组成的 2 阶段管道来处理未知手持物体的基于视频的 3D 重建。我们仔细评估了这两个阶段的一组重要基线,并表明使用 SfM 工具箱或手部姿势估计器来恢复刚性变换和现成的 MVR 算法,可以实现有前途的与对象无关的 3D 手部对象重建。然而,这些方法对初始相机姿态估计仍然敏感,由于物体缺乏纹理或手部严重遮挡,初始相机姿态估计可能不精确,从而为重建的改进留下了空间。 |
Few-Shot Panoptic Segmentation With Foundation Models Authors Markus K ppeler, K rsat Petek, Niclas V disch, Wolfram Burgard, Abhinav Valada 当前最先进的全景分割方法需要大量带注释的训练数据,获得这些数据既困难又昂贵,对其广泛采用构成了重大挑战。与此同时,视觉表示学习的最新突破引发了范式转变,导致可以使用完全未标记的图像进行训练的大型基础模型的出现。在这项工作中,我们建议利用这种与任务无关的图像特征,通过呈现具有近 0 标签 SPINO 的分割全景信息来实现少量镜头全景分割。具体来说,我们的方法将 DINOv2 主干与轻量级网络头相结合,用于语义分割和边界估计。我们展示了我们的方法,尽管仅使用十个带注释的图像进行训练,但可以预测可与任何现有全景分割方法一起使用的高质量伪标签。值得注意的是,我们证明,与完全监督的基线相比,SPINO 在使用少于 0.3 个真实标签的情况下取得了有竞争力的结果,为利用基础模型学习复杂的视觉识别任务铺平了道路。为了说明其普遍适用性,我们进一步在室外和室内环境的现实世界机器人视觉系统上部署 SPINO。 |
Causality-Driven One-Shot Learning for Prostate Cancer Grading from MRI Authors Gianluca Carloni, Eva Pachetti, Sara Colantonio 在本文中,我们提出了一种自动分类医学图像的新方法,该方法可以学习并利用图像中的弱因果信号。我们的框架由一个卷积神经网络主干和一个因果关系提取器模块组成,该模块提取特征图之间的因果关系,可以告知模型在图像的一个位置中存在另一个特征时,该特征在图像的一个位置上的出现情况的图像。为了评估我们的方法在低数据场景中的有效性,我们在一次性学习方案中训练我们的因果驱动架构,其中我们提出了一种新的元学习过程,其中需要元训练和元测试任务,这些任务是使用相关类但在不同级别设计的的粒度。我们对公开可用的前列腺 MRI 图像数据集进行二元和多类分类实验。为了验证所提出的因果驱动模块的有效性,我们进行了消融研究,并使用类激活图进行定性评估,以突出显示强烈影响网络决策过程的区域。我们的研究结果表明,特征之间的因果关系在增强模型辨别相关信息并产生更可靠和可解释的预测的能力方面发挥着至关重要的作用。 |
Sound Source Localization is All about Cross-Modal Alignment Authors Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae Hyun Oh, Hanspeter Pfister, Joon Son Chung 人类可以轻松感知视觉场景中声源的方向,称为声源定位。最近基于学习的声源定位的研究主要从定位的角度探讨了这个问题。然而,现有技术和现有基准没有考虑问题的更重要方面,即跨模态语义理解,这对于真正的声源定位至关重要。跨模态语义理解对于理解语义不匹配的视听事件(例如无声对象或屏幕外声音)非常重要。为了解决这个问题,我们提出了跨模态对齐任务作为与声源定位的联合任务,以更好地学习音频和视觉模态之间的交互。因此,我们通过强大的跨模态语义理解实现了高定位性能。我们的方法在声源定位和跨模态检索方面都优于最先进的方法。 |
Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image Denoising Authors Yujin Wang, Lingen Li, Tianfan Xue, Jinwei Gu 图像去噪是计算机视觉领域的一项基本且具有挑战性的任务。大多数监督去噪方法都会学习从噪声输入中重建干净的图像,这些输入具有固有的光谱偏差,并且往往会产生过度平滑和模糊的图像。最近,研究人员探索了扩散模型以在图像恢复任务中生成高频细节,但这些模型不能保证生成的纹理与真实图像对齐,从而导致不良的伪影。为了解决去噪任务中视觉吸引力和高频细节保真度之间的权衡,我们提出了一种称为“重建和生成扩散模型 RnG”的新颖方法。我们的方法利用重建去噪网络来恢复大部分底层干净信号,作为后续步骤保持保真度的初始估计。此外,它还采用扩散算法来生成残留的高频细节,从而提高视觉质量。我们进一步引入了两阶段训练计划,以确保 RnG 的重建模块和生成模块之间的有效协作。为了减少扩散模型引入的不良纹理,我们还提出了一种自适应步骤控制器,它可以调节扩散模型应用的反向步骤的数量,从而可以控制添加到每个补丁的高频细节的水平,并节省推理计算量成本。通过我们提出的 RnG,我们在感知和失真之间实现了更好的平衡。 |
Interpret Vision Transformers as ConvNets with Dynamic Convolutions Authors Chong Zhou, Chen Change Loy, Bo Dai 作为计算机视觉模型的支柱,视觉 Transformer 和 ConvNet 之间的优越性一直存在争议。尽管它们通常被认为是两种完全不同的架构,但在本文中,我们将视觉 Transformer 解释为具有动态卷积的 ConvNet,这使我们能够在统一的框架中表征现有 Transformer 和动态 ConvNet,并并排比较它们的设计选择。此外,我们的解释还可以指导网络设计,因为研究人员现在可以从 ConvNet 的设计空间考虑视觉 Transformer,反之亦然。我们通过两项具体研究证明了这种潜力。首先,我们检查了 softmax 在视觉 Transformers 中作为激活函数的作用,发现它可以被常用的 ConvNets 模块(例如 ReLU 和 Layer Normalization)替代,从而获得更快的收敛速度和更好的性能。其次,根据深度卷积的设计,我们创建了一个相应的深度视觉 Transformer,其效率更高,性能相当。 |
Latent Space Energy-based Model for Fine-grained Open Set Recognition Authors Wentao Bao, Qi Yu, Yu Kong 细粒度开放集识别 FineOSR 旨在识别属于具有细微外观差异的类别的图像,同时拒绝未知类别的图像。 OSR 的最新趋势显示了生成模型对于判别性未知检测的好处。作为生成模型的一种,基于能量的模型 EBM 具有生成和判别任务混合建模的潜力。然而,大多数现有的 EBM 都受到高维空间中密度估计的困扰,这对于识别细粒度类别的图像至关重要。在本文中,我们探索了细粒度视觉世界中 OSR 的具有基于能量先验分布的低维潜在空间。具体来说,基于潜在空间EBM,我们提出了属性感知信息瓶颈AIB、残差属性特征聚合RAFA模块和基于不确定性的虚拟异常值合成UVOS模块,以提高细粒度样本的表达性、粒度和密度。分别是类。我们的方法可以灵活地利用最新的视觉转换器来进行强大的视觉分类和生成。 |
ReShader: View-Dependent Highlights for Single Image View-Synthesis Authors Avinash Paliwal, Brandon Nguyen, Andrii Tsarov, Nima Khademi Kalantari 近年来,由于 3D 场景表示和图像修复技术的快速进步,单个图像的新颖视图合成取得了重大进展。虽然当前的方法能够合成几何上一致的新颖视图,但它们通常不能正确处理视图相关的效果。具体来说,合成图像中的亮点通常看起来粘在表面上,使得新颖的视图不切实际。为了解决这个主要问题,我们进行了一个关键的观察,即合成新视图的过程需要根据新相机改变像素的阴影,并将它们移动到适当的位置。因此,我们建议将视图合成过程分为像素重新着色和重新定位两个独立的任务。在重新着色过程中,我们将单个图像作为输入,并根据新颖的相机调整其着色。然后,将该重新着色的图像用作现有视图合成方法的输入,以重新定位像素并生成最终的新颖视图图像。我们建议使用神经网络来执行重新着色并生成大量合成输入重新着色对来训练我们的网络。 |
Locally Stylized Neural Radiance Fields Authors Hong Wing Pang, Binh Son Hua, Sai Kit Yeung 近年来,人们越来越关注在参考风格图像的 3D 场景上应用风格化,特别是在神经辐射场 NeRF 上。虽然直接在 NeRF 上执行风格化可以保证任意新颖视图的外观一致性,但引导模式从风格图像转移到 NeRF 场景的不同部分是一个具有挑战性的问题。在这项工作中,我们提出了一个基于局部风格迁移的 NeRF 风格化框架。特别是,我们使用哈希网格编码来学习外观和几何组件的嵌入,并表明哈希表定义的映射允许我们在一定程度上控制风格化。然后通过优化外观分支同时保持几何分支固定来实现风格化。为了支持局部风格迁移,我们提出了一种新的损失函数,利用分割网络和二分匹配来建立风格图像和从体渲染获得的内容图像之间的区域对应关系。 |
Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping Authors Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs 我们专注于声景映射的任务,其中涉及预测在特定地理位置可以感知到的最可能的声音。我们利用最新的最先进的模型来编码地理标记音频、音频的文本描述以及使用对比预训练的捕获位置的俯视图像。最终结果是三种模式的共享嵌入空间,这使得能够根据文本或音频查询为任何地理区域构建声景图。使用 SoundingEarth 数据集,我们发现我们的方法明显优于现有的 SOTA,图像到音频的召回率 100 从 0.256 提高到 0.450。 |
Multi-Stain Self-Attention Graph Multiple Instance Learning Pipeline for Histopathology Whole Slide Images Authors Amaya Gallagher Syed, Luca Rossi, Felice Rivellese, Costantino Pitzalis, Myles Lewis, Michael Barnes, Gregory Slabaugh 整个幻灯片图像 WSI 由于其十亿像素大小和大量伪影的存在而提出了一项具有挑战性的计算机视觉任务。然而,它们是患者诊断和分层的宝贵资源,通常代表诊断任务的黄金标准。现实世界的临床数据集往往是一组异构 WSI,其标签存在于患者级别,注释很少甚至没有。近年来,人们开发了基于弱监督注意力的多实例学习方法来应对这些挑战,但可能无法解决长程和短程依赖性。在这里,我们提出了一种端到端的多染色自注意力图 MUSTANG 多实例学习管道,旨在解决弱监督的十亿像素多图像分类任务,其中标签在患者级别分配,但没有幻灯片级别标签或区域注释可用。该管道使用基于自注意力的方法,将操作限制为基于欧几里德距离的嵌入式 WSI 补丁的高度稀疏 k 最近邻图。我们证明这种方法实现了最先进的 F1 分数 AUC 0.89 0.92,优于广泛使用的 CLAM 模型。我们的方法是高度模块化的,可以轻松修改以适应不同的临床数据集,因为它只需要没有注释的患者级别标签,并且接受不同大小的 WSI 集,因为图表可以具有不同的大小和结构。 |
Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation Authors Jingyu Zhang, Huitong Yang, Daijie Wu, Xuesong Li, Xinge Zhu, Yuexin Ma 当前最先进的基于点云的感知方法通常依赖于大规模标记数据,这需要昂贵的手动注释。一个自然的选择是探索 3D 感知任务的无监督方法。然而,此类方法常常面临性能大幅下降的困难。幸运的是,我们发现存在大量基于图像的数据集,并且可以提出一种替代方案,即将 2D 图像中的知识转移到 3D 点云。具体来说,我们通过充分探索图像和点云之间的关系并设计有效的特征对齐策略,提出了一种新的方法来应对具有挑战性的跨模式和跨域适应任务。 |
KFC: Kinship Verification with Fair Contrastive Loss and Multi-Task Learning Authors Jia Luo Peng, Keng Wei Chang, Shang Hong Lai 亲属关系验证是计算机视觉中的一项新兴任务,具有多种潜在应用。然而,没有足够大的亲属关系数据集来训练具有代表性和鲁棒性的模型,这是实现更好性能的限制。此外,众所周知,人脸验证存在偏见,以前的亲属关系验证工作没有解决这一问题,有时甚至会导致严重的问题。因此,我们首先结合现有的亲属关系数据集,并用正确的种族标记每个身份,以便考虑种族信息并提供一个更大且完整的数据集,称为 KinRace 数据集。其次,我们提出了一种带有注意力模块的多任务学习模型结构,以提高准确性,超越了最先进的性能。最后,我们的公平意识对比损失函数与对抗性学习极大地减轻了种族偏见。我们在传统对比损失中引入去偏差项,并在种族分类任务中实现梯度反转,这是混合两种公平方法来减轻偏差的创新想法。 |
Source-free Active Domain Adaptation for Diabetic Retinopathy Grading Based on Ultra-wide-field Fundus Image Authors Jinye Ran, Guanghua Zhang, Ximei Zhang, Juan Xie, Fan Xia, Hao Zhang 域适应DA已广泛应用于未注释的超广角UWF眼底图像的糖尿病视网膜病变DR分级,它可以从标记的彩色眼底图像中转移注释的知识。然而,由于巨大的领域差距和复杂的现实世界场景,大多数主流DA的DR分级性能与临床诊断相距甚远。为了解决这个问题,我们在本文中提出了一种新颖的无源主动域适应 SFADA。具体来说,我们关注 DR 分级问题本身,并建议生成具有不断发展的 DR 关系的彩色眼底图像特征,主动选择一些有价值的 UWF 眼底图像进行局部表示匹配标记,并在具有 DR 病变的 UWF 眼底图像上调整模型原型。值得注意的是,SFADA 还考虑了数据隐私和计算效率。大量的实验结果表明,我们提出的 SFADA 实现了最先进的 DR 分级性能,与基线相比,准确度提高了 20.9,二次加权 kappa 提高了 18.63,分别达到 85.36 和 92.38。 |
Intelligent Debris Mass Estimation Model for Autonomous Underwater Vehicle |