One-for-All：上交大提出视觉推理的符号化与逻辑推理分离的新范式 | ECCV 2024_one-for-all proposal masked cross-class anomaly de-CSDN博客

本文链接：https://blog.csdn.net/lichlee/article/details/141592398

通过对多样化基准的严格评估，论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理：（1）符号化和（2）基于符号或其表示的逻辑推理，发现推理阶段比符号化更擅长泛化。因此，更高效的做法是通过为不同数据领域使用分离的编码器来实现符号化，同时使用共享的推理器。

来源：晓飞的算法工程笔记公众号

论文: Take A Step Back: Rethinking the Two Stages in Visual Reasoning

论文地址：https://arxiv.org/abs/2407.19666
论文代码：https://mybearyzhang.github.io/projects/TwoStageReason

Introduction

推理能力是人类智能的集中体现，它是概念形成、对世界的认知理解以及与环境交互的基础。具体而言，视觉推理作为人类获取信息和理解的主要方式之一，已经成为广泛研究的焦点。近年来，随着深度学习的进步，涌现出了许多关于视觉推理的研究工作。此外，也出现了各种数据集来评估推理模型。

然而，现有视觉推理工作的显著局限性在于它们直接依赖于通过端到端深度学习模型同时进行识别和推理阶段，例如，在回答逻辑问题时识别图像中的概念。然而，这种范式存在显而易见的局限性：1）推理注释（规则、关系）比符号注释（三角形、立方体、苹果）要昂贵且困难得多，当前严格的视觉推理数据集通常很小。因此，当前方法往往是在小数据集上的特定任务，阻碍了它们的泛化潜力。2）同时追求符号识别和逻辑推理的通用模型可能效率低下且具有挑战性，即使是最近的大型语言模型（LLM）也难以处理多样化的视觉推理任务。

论文认为视觉推理的重点在于先从视觉信号中获取符号化表示，随后是逻辑推理，如图1所示。因此，一个问题浮现出来：这两个阶段应该纠缠在一起还是解开？推理自然比符号化具有更好的泛化性。例如，可以使用类似的逻辑分析不同任务的规则（如下围棋、做数学题和发现异常），但对于识别字母和物体则需要完全不同的知识。因此，论文认为解开符号化和推理将是一个更明智的选择。最近大型语言模型（LLM）在基于文本的推理任务上的成功也验证了这一点，因为LLM直接利用从人类观察中得出的抽象符号（语言），并专注于高级语言任务。相对而言，多模态大型语言模型（MLLM）即使参数更多，仍在视觉推理中遇到困难。最近，另一个相关的研究趋势是神经符号方法，将原始输入转换为明确的符号，以便进行后续推理和分析。然而，神经符号方法通常局限于单一数据集，这使得在不同任务之间实现泛化变得具有挑战性。

论文在多个具有显著领域差距的基准任务上进行了全面的实验，以验证假设。将符号化阶段定义为利用深度神经网络（DNN）进行表示提取，采用多种架构（如MLP、CNN、GNN、Transformer、神经符号模型、LLM等）实现逻辑推理器。论文主要探讨两个关键问题：(1) 在训练过的DNN模型中，符号化阶段的结束在哪里？即确定适合推理的合适符号（表示），如模型的深度、特征特性等。(2) 针对抽象的符号，哪种类型的模型和训练策略最适合进行推理，并赋予泛化能力？

对于第一个问题，论文发现不同的任务和领域需要非常不同规模的参数或模型深度才能实现良好的符号化。因此，针对特定领域，一个小型的独立领域内编码器就足以从数据中提取符号，以供后续推理阶段使用。虽然像CLIP这样的通用大型基础模型在某些任务上表现不错，但在与其训练数据存在巨大领域差距的任务上仍然面临挑战。对于第二个问题，实验结果显示，现有方法在执行跨领域推理时往往困难重重，而更倾向于适应与训练数据一致的偏见。因此，也许只能通过训练它执行各种推理任务（如解谜、物理预测、视觉问答）和数据领域（2D、3D、文本）来实现可泛化的共享推理器，即“近似原则”。

基于实验的发现，论文构建了一个简洁的框架，采用分离的编码器来实现不同数据领域的最佳符号化，并遵循“近似原则”建立了一个共享的推理器。该方法在跨领域基准测试中表现出色，使用更少的参数即可达到优异的性能。

总体而言，论文的贡献如下：

总结了一种高效的视觉推理的两阶段方法，借鉴了先前的视觉推理网络的思路。
探讨了视觉推理中符号化和逻辑推理的最优设计原则。
引入了一个简洁的框架，在多个具有领域差距的数据集上表现良好。

Preliminary

Two Stages

如上所述，视觉推理可以分为两个阶段：符号化阶段提取基础数据的符号表示，推理阶段进行逻辑推理。

对于人类来说，从感觉器官收集到的视觉和听觉信息的不同模态，通过不同的通路转换成电信号，然后发送到小脑皮层进行逻辑推理。类比地，为了通用的视觉推理机器，分离的任务特定符号化器和共享的领域无关推理器是一个合理的选择。此外，推理器应能够对来自各种模态的输入信息进行统一推理。换句话说，推理的本质在于其泛化能力。

Symbolization Stage

在符号化阶段，实现了各种面向任务的特征提取网络。这些网络使用针对每个任务定制的符号编码器，将多模态输入（文本、图像、视频）转换为符号表示。具体而言，假设有 $n$ 个任务。对于第 $i$ 个任务，有输入数据 $\mathbf{x}^{i}$ 和任务 $t^{i}$ ，以及任务定向编码器 $E^{i}$