【AI视野·今日CV 计算机视觉论文速览第272期】Fri, 20 Oct 2023_putting the object back into video object segmenta-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/134017463

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 20 Oct 2023
Totally 62 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Putting the Object Back into Video Object Segmentation
Authors Ho Kei Cheng, Seoung Wug Oh, Brian Price, Joon Young Lee, Alexander Schwing
我们提出了 Cutie，一种具有对象级内存读取功能的视频对象分割 VOS 网络，它将内存中的对象表示放回到视频对象分割结果中。最近关于 VOS 的工作采用了自下而上的像素级内存读取，这种读取由于匹配噪声而陷入困境，尤其是在存在干扰因素的情况下，导致更具挑战性的数据性能较低。相比之下，Cutie 通过调整一小组对象查询来执行自上而下的对象级内存读取，以便使用基于查询的对象转换器 qt 进行重构并与自下而上的像素特征迭代交互，因此称为 Cutie 。对象查询充当目标对象的高级摘要，同时保留高分辨率特征图以进行准确分割。与前景背景屏蔽注意力一起，Cutie 干净地将前景对象的语义与背景分开。在具有挑战性的 MOSE 数据集上，Cutie 在运行时间相似的情况下比 XMem 提高了 8.7 J F，在运行速度是 DeAOT 的三倍的情况下比 DeAOT 提高了 4.2 J F。

HumanTOMATO: Text-aligned Whole-body Motion Generation
Authors Shunlin Lu, Ling Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang, Heung Yeung Shum
这项工作针对一种新颖的文本驱动的全身运动生成任务，该任务以给定的文本描述作为输入，旨在同时生成高质量、多样化和连贯的面部表情、手势和身体运动。以前关于文本驱动的动作生成任务的工作主要有两个局限性，一是忽略了细粒度的手和面部控制在生动的全身动作生成中的关键作用，二是缺乏文本和动作之间的良好对齐。为了解决这些限制，我们提出了一个文本对齐的全身运动生成框架，名为 HumanTOMATO，这是我们在该研究领域中应用整体运动生成知识的首次尝试。为了解决这一具有挑战性的任务，我们的解决方案包括两个关键设计 1 整体分层 VQ VAE 又名 H 2 VQ 和分层 GPT，用于细粒度身体和手部运动重建和生成，具有两个结构化密码本和 2 预训练的文本运动对齐模型帮助生成的运动明确地与输入文本描述对齐。

On the Hidden Waves of Image
Authors Yinpeng Chen, Dongdong Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, Zicheng Liu, Youzuo Lin
在本文中，我们介绍了一个有趣的现象，即使用一组具有隐藏且可学习速度的单向波动方程成功重建图像。每个单独的图像对应于具有唯一初始条件的解决方案，可以使用视觉编码器（例如，卷积神经网络）从原始图像计算该解决方案。此外，每个图像的解表现出两个值得注意的数学特性：a 它可以分解为相同单向波动方程的特殊解的集合，这些方程是一阶自回归，具有用于自回归的共享系数矩阵，b 是这些系数的乘积矩阵形成一个对角矩阵，以波动方程的速度作为对角元素。我们将这种现象称为隐藏波，因为它揭示了虽然波动方程组和自回归系数矩阵的速度是潜在的，但它们都是可学习的并且在图像之间共享。

FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects
Authors Mayank Lunayach, Sergey Zakharov, Dian Chen, Rares Ambrus, Zsolt Kira, Muhammad Zubair Irshad
在这项工作中，我们解决了 3D 对象识别这一具有挑战性的任务，而不依赖于现实世界的 3D 标记数据。我们的目标是预测单个 RGB D 图像中对象的 3D 形状、大小和 6D 姿态，在类别级别进行操作，并在推理过程中消除对 CAD 模型的需求。虽然现有的自监督方法在这一领域取得了长足的进步，但它们常常因非端到端处理、对不同对象类别的单独模型的依赖以及隐式重建模型训练过程中表面提取缓慢而导致效率低下，从而阻碍了速度以及 3D 识别过程的现实世界适用性。我们提出的方法利用多阶段训练管道，旨在有效地将合成性能转移到现实世界领域。这种方法是通过在合成域训练期间结合 2D 和 3D 监督损失来实现的，然后在两个额外的学习阶段将 2D 监督和 3D 自监督损失结合到现实世界数据上。

Frozen Transformers in Language Models Are Effective Visual Encoder Layers
Authors Ziqi Pang, Ziyang Xie, Yunze Man, Yu Xiong Wang
这篇论文揭示了大型语言模型 LLM，尽管仅基于文本数据进行训练，但在没有语言的情况下对于纯视觉任务来说却是令人惊讶的强大编码器。更有趣的是，这可以通过一种简单但之前被忽视的策略来实现，该策略采用预先训练的 LLM 中的冻结变压器块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用法学硕士执行计算机视觉任务的界限，显着偏离了通常需要具有相关语言提示、输入或输出的多模态视觉语言设置的传统实践。我们证明，我们的方法能够持续增强各种任务的性能，包括纯 2D 和 3D 视觉识别任务（例如图像和点云分类）、时间建模任务（例如动作识别）、非语义任务（例如运动预测）和多模态任务任务，例如 2D 3D 视觉问答和图像文本检索。这种改进是一种普遍现象，适用于各种类型的 LLM，例如 LLaMA 和 OPT 以及不同的 LLM 变压器块。我们还提出了信息过滤假设来解释预训练的 LLM 在视觉编码中的有效性，预训练的 LLM 转换器块可识别信息丰富的视觉标记并进一步放大其效果。这一假设得到了观察的实证支持，即在使用 LLM 变压器块进行训练后，特征激活表现出对相关区域更加关注。我们希望我们的工作能够激发人们利用法学硕士的新视角，并加深我们对其潜在机制的理解。

CLAIR: Evaluating Image Captions with Large Language Models
Authors David Chan, Suzanne Petryk, Joseph E. Gonzalez, Trevor Darrell, John Canny
机器生成的图像描述的评估提出了一个有趣但持续的挑战。有效的评估措施必须考虑相似性的多个维度，包括语义相关性、视觉结构、对象交互、标题多样性和特异性。现有的精心设计的措施试图捕捉特定的方面，但无法提供与人类判断紧密一致的整体分数。在这里，我们提出了 CLAIR，这是一种利用大型语言模型 LLM 的零样本语言建模功能来评估候选字幕的新颖方法。在我们的评估中，与现有的衡量标准相比，CLAIR 表现出与人类对字幕质量的判断有更强的相关性。值得注意的是，在 Flickr8K Expert 上，CLAIR 相对于 SPICE 实现了 39.6 的相对相关性改进，相对于 RefCLIP S 等图像增强方法实现了 18.3 的相对相关性改进。此外，CLAIR 通过允许语言模型识别其分配分数背后的潜在推理来提供嘈杂的可解释结果。

Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
Authors Zhejun Zhang, Alexander Liniger, Christos Sakaridis, Fisher Yu, Luc Van Gool
自动驾驶系统的现实部署需要其组件在车上实时运行，包括预测周围交通参与者未来轨迹的运动预测模块。现有的以代理为中心的方法在公共基准测试中表现出了出色的性能。然而，随着要预测的代理数量的增加，它们面临着计算开销高和可扩展性差的问题。为了解决这个问题，我们引入了具有相对姿势编码 KNARPE 的 K 最近邻注意力机制，这是一种新颖的注意力机制，允许 Transformers 使用成对相对表示。然后，基于 KNARPE，我们提出了具有相对姿势编码 HPTR 的异构折线变换器，这是一个能够在在线推理期间实现异步令牌更新的分层框架。通过在代理之间共享上下文并重用未更改的上下文，我们的方法与以场景为中心的方法一样高效，同时与最先进的以代理为中心的方法性能相当。 Waymo 和 Argoverse 2 数据集上的实验表明，HPTR 在不应用昂贵的后处理或模型集成的端到端方法中实现了卓越的性能。

3D-GPT: Procedural 3D Modeling with Large Language Models
Authors Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould
在追求高效的自动化内容创建的过程中，利用可修改参数和基于规则的系统的程序生成成为一种有前景的方法。尽管如此，鉴于其复杂性，需要深入了解规则、算法和参数，这可能是一项艰巨的任务。为了减少工作量，我们引入了 3D GPT，这是一个利用大型语言模型 LLM 进行指令驱动的 3D 建模的框架。 3D GPT 将法学硕士定位为熟练的问题解决者，将程序性 3D 建模任务分解为可访问的部分，并为每个任务指定合适的代理。 3D GPT 集成了三个核心代理：任务调度代理、概念化代理和建模代理。他们合作实现两个目标。首先，它增强了简洁的初始场景描述，将其演变为详细的形式，同时根据后续指令动态调整文本。其次，它集成了程序生成，从丰富的文本中提取参数值，以便轻松地与 3D 软件连接以创建资产。我们的实证研究证实，3D GPT 不仅可以解释和执行指令，提供可靠的结果，而且还可以与人类设计师有效协作。此外，它与 Blender 无缝集成，释放了扩展的操作可能性。

Unsupervised Object Localization in the Era of Self-Supervised ViTs: A Survey
Authors Oriane Sim oni, loi Zablocki, Spyros Gidaris, Gilles Puy, Patrick P rez
最近对开放世界视觉系统的热情表明了社区对在迄今为止非常流行的封闭词汇基准设置之外执行感知任务的高度兴趣。能够在不事先知道数据集中包含哪些对象的情况下发现图像视频中的对象是一个令人兴奋的前景。但是如何在不了解任何对象的情况下找到对象最近的工作表明，可以通过利用自监督的预训练特征来执行与类别无关的无监督对象定位。我们在这里提出了一项对无监督对象定位方法的调查，这些方法可以在自监督 ViT 时代发现图像中的对象，而无需任何手动注释。

EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model
Authors Zheyuan Zhang, Lanhong Yao, Bin Wang, Debesh Jha, Elif Keles, Alpay Medetalibeyoglu, Ulas Bagci
大规模、大变体和高质量的数据对于为医疗应用开发强大且成功的深度学习模型至关重要，因为它们有可能实现更好的泛化性能并避免过度拟合。然而，高质量标记数据的稀缺总是带来重大挑战。本文提出了一种新方法来解决这一挑战，即开发用于医学图像合成的可控扩散模型，称为 EMIT Diff。我们利用最新的扩散概率模型来生成真实且多样化的合成医学图像数据，通过结合对象的边缘信息来指导合成过程，从而保留原始医学图像的基本特征。在我们的方法中，我们确保合成的样本遵守医学相关的限制并保留成像数据的基础结构。由于扩散模型的随机采样过程，我们可以生成任意数量的具有不同外观的合成图像。为了验证我们提出的方法的有效性，我们对多个数据集进行了广泛的医学图像分割实验，包括超声乳腺 13.87 、CT 脾脏 0.38 和 MRI 前列腺 7.78 ，与基线分割方法相比取得了显着改进。据我们所知，这些有希望的结果首次证明了我们的 EMIT Diff 对于医学图像分割任务的有效性，并展示了为一般医学图像分割任务引入第一个文本引导扩散模型的可行性。

Neural Degradation Representation Learning for All-In-One Image Restoration
Authors Mingde Yao, Ruikang Xu, Yuanshen Guan, Jie Huang, Zhiwei Xiong
现有方法已证明对单一降解类型具有有效的性能。然而，在实际应用中，退化往往是未知的，模型和退化之间的不匹配将导致性能严重下降。在本文中，我们提出了一种解决多重退化问题的一体化图像恢复网络。由于不同类型退化的异构性，很难在单个网络中处理多种退化。为此，我们建议学习一种神经退化表示 NDR，它可以捕获各种退化的潜在特征。学习到的 NDR 自适应地分解不同类型的退化，类似于表示基本退化成分的神经字典。随后，我们开发了降级查询模块和降级注入模块，以有效地识别和利用基于NDR的特定降级，从而实现多种降级的一站式恢复能力。此外，我们提出了一种双向优化策略，通过交替优化退化和恢复过程来有效驱动 NDR 学习退化表示。

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision
Authors Cheng Kun Yang, Min Hung Chen, Yung Yu Chuang, Yen Yu Lin
我们提出了一种多模态交错变压器 MIT，它联合考虑 2D 和 3D 数据来进行弱监督点云分割。研究表明，2D 和 3D 特征对于点云分割是互补的。然而，现有方法需要额外的2D注释来实现2D 3D信息融合。考虑到点云的标注成本较高，基于弱监督学习的有效2D和3D特征融合的需求很大。为此，我们提出了一种具有两个编码器和一个解码器的变压器模型，用于仅使用场景级类标签进行弱监督点云分割。具体来说，两个编码器分别计算 3D 点云和 2D 多视图图像的自参与特征。解码器实现隔行扫描2D 3D交叉关注并进行隐式2D和3D特征融合。我们在解码器层中交替切换查询和键值对的角色。事实证明，2D 和 3D 特征是相互迭