【AI视野·今日CV 计算机视觉论文速览第296期】Wed, 24 Jan 2024

本文链接：https://blog.csdn.net/u014636245/article/details/136116146

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 24 Jan 2024
Totally 65 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

GALA: Generating Animatable Layered Assets from a Single Scan
Authors Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
我们提出了 GALA，这是一个框架，它将单层穿戴的 3D 人体网格作为输入，并将其分解为完整的多层 3D 资产。然后，输出可以与其他资产结合起来，创建具有任何姿势的新颖的服装人类化身。现有的重建方法通常将穿着衣服的人类视为单层几何体，而忽略了人类与发型、服装和配饰的固有组合性，从而限制了网格在下游应用中的实用性。将单层网格分解为单独的层是一项具有挑战性的任务，因为它需要为严重遮挡的区域合成合理的几何形状和纹理。此外，即使分解成功，网格在姿势和身体形状方面也没有标准化，无法与新颖的身份和姿势进行连贯的组合。为了应对这些挑战，我们建议利用预训练的二维扩散模型的一般知识作为人类和其他资产的几何和外观先验。我们首先使用从多视图 2D 分割中提取的 3D 表面分割来分离输入网格。然后，我们使用新颖的姿势引导分数蒸馏采样 SDS 损失来合成姿势空间和规范空间中不同层的缺失几何形状。一旦我们完成了高保真 3D 几何体的修复，我们还会对其纹理应用相同的 SDS 损失，以获得包括最初遮挡区域在内的完整外观。通过一系列分解步骤，我们在共享规范空间中获得了多层 3D 资产，并根据姿势和人体形状进行了规范化，从而支持轻松组合新的身份并以新的姿势复活。

Zero-Shot Learning for the Primitives of 3D Affordance in General Objects
Authors Hyeonwoo Kim, Sookwan Han, Patrick Kwon, Hanbyul Joo
人工智能的主要挑战之一是教会机器精确响应和利用环境功能，从而实现人类拥有的可供性意识。尽管它很重要，但该领域在学习方面一直落后，尤其是在 3D 领域，因为由于人类对象交互的众多变化，注释可供性伴随着一个费力的过程。可供性数据的低可用性限制了对象类别泛化方面的学习，并且还简化了可供性的表示，仅捕获了可供性的一小部分。为了克服这些挑战，我们提出了一种新颖的自监督方法来生成仅给定 3D 对象的 3D 可供性示例，无需任何手动注释。该方法首先将 3D 对象捕获到图像中，并通过修复扩散模型将人体插入到图像中来创建 2D 可供性图像，其中我们提出了自适应掩模算法，以在不改变对象的原始细节的情况下实现人体插入。因此，该方法将插入的人体提升回 3D 以创建 3D 人体对象对，其中深度模糊性在深度优化框架内得到解决，该框架利用从多个视点预先生成的人体姿势。我们还提供了一种新颖的可供性表示，它是根据密集的人和物体点之间的相对方向和接近度定义的，可以轻松地从任何 3D HOI 数据集中聚合。所提出的表示作为一个基元，可以通过简单的转换（从物理施加的可供性到非物理的可供性）来显现为传统的可供性表示。

IRIS: Inverse Rendering of Indoor Scenes from Low Dynamic Range Images
Authors Zhi Hao Lin, Jia Bin Huang, Zhengqin Li, Zhao Dong, Christian Richardt, Tuotuo Li, Michael Zollh fer, Johannes Kopf, Shenlong Wang, Changil Kim
虽然许多 3D 重建和新颖的视图合成方法允许从使用消费级相机轻松捕获的多视图图像中对场景进行真实感渲染，但它们在表示中烘焙照明，并且无法支持材质编辑、重新照明和虚拟对象插入等高级应用程序。

HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments
Authors Qinhong Zhou, Sunli Chen, Yisong Wang, Haozhe Xu, Weihua Du, Hongxin Zhang, Yilun Du, Joshua B. Tenenbaum, Chuang Gan
高保真虚拟环境的最新进展是构建智能实体来感知、推理并与物理世界交互的主要驱动力之一。通常，这些环境保持不变，除非代理与它们交互。然而，在现实场景中，代理还可能面临以意外事件为特征的动态变化的环境，需要快速采取相应的行动。为了弥补这一差距，我们提出了一种新的模拟体现基准，称为 HAZARD，专门用于评估动态情况下体现主体的决策能力。 HAZARD由火灾、洪水和风三种意外灾害场景组成，专门支持利用大型语言模型LLM来辅助常识推理和决策。该基准使我们能够评估跨各种管道的自主代理决策能力，包括动态变化环境中的强化学习 RL、基于规则和基于搜索的方法。作为使用大型语言模型应对这一挑战的第一步，我们进一步开发了一个基于 LLM 的代理，并对其解决这些具有挑战性的任务的承诺和挑战进行了深入分析。

On the Efficacy of Text-Based Input Modalities for Action Anticipation
Authors Apoorva Beedu, Karan Samel, Irfan Essa
尽管预测未来行动的任务高度不确定，但来自其他模式的信息有助于缩小合理的行动选择范围。每种模式都提供了不同的环境背景供模型学习。虽然以前的多模态方法利用来自视频和音频等模态的信息，但我们主要探讨动作和对象的文本输入如何也能够实现更准确的动作预期。因此，我们提出了一种多模态预期变换器 MAT，这是一种基于注意力的视频变换器架构，可以联合学习多模态特征和文本字幕。我们分两个阶段训练模型，模型首先学习通过与字幕对齐来预测视频剪辑中的动作，在第二阶段，我们微调模型以预测未来的动作。与现有方法相比，MAT 的优点是在预训练阶段从两种文本输入动作描述中学习额外的环境上下文，在模态特征融合期间从检测到的对象和动作的文本输入中学习额外的环境上下文。通过大量的实验，我们评估了预训练阶段的有效性，并表明我们的模型在所有数据集上都优于以前的方法。此外，我们还检查通过文本获得的对象和动作信息的影响，并进行广泛的消融。

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization
Authors Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang
我们推出了 Coverage Axis，这是一种新颖且高效的 3D 形状骨架化方法。当前用于此任务的最先进的方法通常依赖于输入的防水性或遭受大量的计算成本，从而限制了它们的实用性。为了应对这一挑战，Coverage Axis 提出了一种启发式算法来选择骨架点，提供内侧轴变换 MAT 的高精度近似，同时显着减轻各种形状表示的计算强度。我们引入了一种简单而有效的策略，该策略考虑形状覆盖范围和均匀性来导出骨架点。选择过程强制与形状结构的一致性，同时有利于占主导地位的内侧球，从而在 MAT 方面引入了紧凑的基础形状表示。因此，Coverage Axis 允许对各种形状表示进行骨架化，例如水密网格、三角汤、点云、骨架点数量的规范、很少的超参数以及具有改进的重建精度的高效计算。对各种 3D 形状进行的大量实验验证了 Coverage Axis 的效率和有效性。

Lumiere: A Space-Time Diffusion Model for Video Generation
Authors Omer Bar Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri
我们引入了 Lumiere 一种文本到视频扩散模型，旨在合成视频，描绘真实、多样化和连贯的运动，这是视频合成中的关键挑战。为此，我们引入了时空 U Net 架构，该架构通过模型中的单次传递一次性生成视频的整个时间持续时间。这与现有的视频模型形成鲜明对比，现有的视频模型合成遥远的关键帧，然后进行时间超分辨率，这种方法本质上难以实现全局时间一致性。通过部署空间和重要的时间下采样和上采样，并利用预先训练的文本到图像扩散模型，我们的模型学会通过在多个时空尺度上处理视频来直接生成全帧率、低分辨率视频。

Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning?
Authors Cheng Han, Qifan Wang, Yiming Cui, Wenguan Wang, Lifu Huang, Siyuan Qi, Dongfang Liu
随着视觉模型规模的不断增长，Visual Prompt Tuning VPT作为一种参数高效的迁移学习技术的出现，由于其相对于传统完全微调的优越性能而受到关注。然而，有利于 VPT 的条件、时间和根本原因仍不清楚。在本文中，我们对 19 个不同的数据集和任务进行了全面分析。为了理解何时方面，我们通过二维任务目标和数据分布来确定 VPT 被证明是有利的场景。我们发现，当 1 原始任务目标和下游任务目标之间存在显着差异（例如，从分类过渡到计数），或 2 两个任务之间的数据分布相似（例如，都涉及自然图像）时，VPT 更可取。在探索原因维度时，我们的结果表明 VPT 的成功不能仅仅归因于过度拟合和优化考虑。 VPT 保留原始特征并添加参数的独特方式似乎是一个关键因素。

Unlocking the Potential: Multi-task Deep Learning for Spaceborne Quantitative Monitoring of Fugitive Methane Plumes
Authors Guoxin Si, Shiliang Fu, Wei Yao
随着全球变暖的加剧，甲烷排放的监测和垃圾填埋场气体羽流的检测日益受到关注。我们将甲烷排放监测分解为甲烷浓度反演、羽流分割和排放率估算三个子任务。传统算法存在局限性，甲烷浓度反演通常采用匹配滤波器，该滤波器对全局谱分布敏感，且包含大量噪声。关于羽流分割的研究有限，许多研究采用可能是主观的手动分割。甲烷排放率的估算通常采用IME算法，该算法依赖于获取气象测量数据。利用香港 WENT 垃圾填埋场和 PRISMA 高光谱卫星图像，我们提出了一种新的基于深度学习的框架，用于基于物理模拟的遥感图像定量监测甲烷排放。我们使用大涡流模拟 LES 生成模拟甲烷羽流，并使用辐射传输方程 RTE 生成不同逸散排放浓度图，同时结合增强技术创建模拟 PRISMA 数据集。我们训练了一个用于甲烷浓度反演的 U Net 网络、一个用于甲烷羽流分割的 Mask R CNN 网络以及一个用于甲烷排放率估计的 ResNet 50 网络。与传统算法相比，这三个深度网络都实现了更高的验证精度。我们进一步分别结合前两个子任务和后两个子任务来设计多任务学习模型MTL 01和MTL 02，它们都比单任务模型获得了更高的精度。

FedRSU: Federated Learning for Scene Flow Estimation on Roadside Units
Authors Shaoheng Fang, Rui Ye, Wenhao Wang, Zuhong Liu, Yuxiao Wang, Yafei Wang, Siheng Chen, Yanfeng Wang
路边单元 RSU 可以通过车辆到一切 V2X 通信显着提高自动驾驶车辆的安全性和稳健性。目前，单个RSU的使用主要集中在实时推理和V2X协作，而忽略了RSU传感器收集的高质量数据的潜在价值。整合来自众多RSU的海量数据可以为模型训练提供丰富的数据源。然而，缺乏真实注释和传输大量数据的困难是充分利用这一隐藏价值的两个不可避免的障碍。在本文中，我们介绍了 FedRSU，一种用于自监督场景流估计的创新联邦学习框架。在 FedRSU 中，我们提出了一种循环自监督训练范例，其中对于每个 RSU，每个时间戳点的场景流预测可以通过其后续的未来多模态观察进行监督。 FedRSU 的另一个关键组成部分是联合学习，其中多个设备协作训练 ML 模型，同时保持训练数据本地和私有。凭借循环自监督学习范式的强大功能，FL 能够利用 RSU 中无数未充分利用的数据。为了验证 FedRSU 框架，我们构建了一个大规模多模态数据集 RSU SF。该数据集由 17 个 RSU 客户端组成，涵盖各种场景、模式和传感器设置。基于RSU SF，我们证明FedRSU可以极大地提高ITS中的模型性能，并在不同的FL场景下提供全面的基准。

Classification of grapevine varieties using UAV hyperspectral imaging
Authors Alfonso L pez, Carlos Javier Ogayar, Francisco Ram n Feito, Joaquim Jo o Sousa
不同葡萄品种的分类是精准葡萄栽培中的一项相关表型分析任务，因为它可以估计专门用于不同品种的葡萄园行的生长，以及与葡萄酒行业相关的其他应用。该任务可以通过破坏性方法来执行，这些方法需要耗时的任务，包括实验室中的数据收集和分析。然而，尽管采集的数据噪声较大，但无人机提供了一种更有效且更宽松的方法来收集高光谱数据。因此，首要任务是对这些数据进行处理，以对大量数据进行校正和下采样。此外，葡萄品种的高光谱特征非常相似。在这项工作中，提出了一种卷积神经网络 CNN，用于对 17 个红葡萄和白葡萄变种进行分类。这些样本不是对单个样本进行分类，而是与其邻近样本一起进行处理。因此，空间和光谱特征的提取通过 1 个空间关注层和 2 个初始块来解决。该管道从处理到数据集细化，最后到训练阶段。拟合模型在响应时间、准确性和数据可分离性方面进行了评估，并与用于分类高光谱数据的其他最先进的 CNN 进行了比较。事实证明，我们的网络更加轻量级，输入频段数量减少，可训练权重数量减少，因此训练时间也减少了。

SGTR+: End-to-end Scene Graph Generation with Transformer
Authors Rongjie Li, Songyang Zhang, Xuming He
由于其组合特性，场景图生成 SGG 仍然是一项具有挑战性的视觉理解任务。以前的大多数工作都采用自下而上的两阶段或基于点的单阶段方法，这种方法通常会遇到高时间复杂度或次优设计的问题。在这项工作中，我们提出了一种新颖的 SGG 方法来解决上述问题，将任务表述为二分图构建问题。为了解决上述问题，我们创建了一个基于转换器的端到端框架来生成实体和实体感知谓词建议集，并推断有向边以形成关系三元组。此外，我们设计了一个图组装模块来基于我们的实体感知结构推断二分场景图的连接性，使我们能够以端到端的方式生成场景图。基于二分图组装范式，我们进一步提出了一种新技术设计来解决实体感知建模的有效性和图组装的优化稳定性。配备增强的实体感知设计，我们的方法实现了最佳性能和时间复杂度。大量的实验结果表明，我们的设计能够在三个具有挑战性的基准上实现最先进的或可比的性能，超越大多数现有方法并享有更高的推理效率。