A Survey of Reasoning with Foundation Models

好好好_

已于 2024-02-04 21:03:57 修改

阅读量921

点赞数 28

分类专栏：论文阅读文章标签：人工智能论文笔记

于 2024-02-04 21:02:28 首次发布

本文链接：https://blog.csdn.net/qq_46094659/article/details/135983873

版权

论文阅读专栏收录该内容

24 篇文章 0 订阅

订阅专栏

A Survey of Reasoning with Foundation Model

Introduction
Background
- Definition of Reasoning
- - Multimodal Foundation Models
ReasoningTasks
Foundation Model Techniques

Introduction

推理，作为复杂问题解决的关键能力，在各种现实世界场景中扮演着核心角色，如谈判、医学诊断和刑事侦查。它是人工通用智能（AGI）领域的一种基本方法。随着基础模型的持续发展，例如大型语言模型（LLMs），人们越来越感兴趣于探索它们在推理任务中的能力。论文介绍了为推理提出或适应的开创性基础模型，突出了在各种推理任务、方法和基准测试方面的最新进展。接着，论文深入探讨了基础模型中推理能力出现的潜在未来方向。我们还讨论了多模态学习、自主代理和超级对齐在推理背景下的相关性。
在这里插入图片描述
与目前主要关注基础模型特定方面的综述相比，如提示（Qiao et al., 2022）、幻觉（Rawte et al., 2023）、演绎推理（Huang and Chang, 2022）、逻辑推理（Friedman, 2023a; Yang et al., 2023f）、因果推理（Kıcıman et al., 2023; Stolfo et al., 2022）、健康信息学（Qiu et al., 2023a）或AI代理（Xi et al., 2023），本文提供了各种推理任务的简洁概述，包括常识推理、数学推理、逻辑推理、因果推理、视觉推理、音频推理、多模态推理、具身推理、可反驳推理等。论文提供了一个全面的概览，突出显示不同领域间的相互联系和关系，以激发更多研究工作积极参与并推进基于基础模型的推理

Background

Definition of Reasoning

哲学定义 1.（认知推理）：认知推理是指对人类得出有意义结论的能力进行建模，尽管知识不完整且不一致，其中涉及知识的表示等，其中从知识的获取和更新到结论的推导的所有过程都必须在适当的硬件上实现和可执行
逻辑定义 2.（逻辑推理）。逻辑推理涉及一个思维过程，其中根据前提和这些前提之间的关系有条不紊地得出结论，确保结论在逻辑上暗示或必要
NLP 定义 3.（自然语言推理）。自然语言推理是整合多种知识（例如，百科全书知识和常识知识）以得出有关（现实或假设）世界的一些新结论的过程。知识可以来自显性和隐性的来源。结论是假设世界上真实的断言或事件，或实际行动

Multimodal Foundation Models

实际场景通常涉及多种模式，例如文本、图像和音频，这些模式共同提供了对数据的更全面和细致的理解。Text2Seg 引入了一种视觉语言模型，该模型利用文本提示作为输入来生成分割掩码。该模型通过使用文本提示生成带有接地 DINO 的边界框来操作，该边界框指导 SAM 生成分割掩码。CLIP学习图像和文本的联合表示。它通过调整视觉和文本信息、实现跨模态理解以及展示各种视觉和语言任务中的能力来实现这一目标。同样， ALIGN 和 WenLan 通过学习 com mon 特征空间来对齐图像和文本表示。CoOp（上下文优化）提出了一种简单的技术，可以为下游任务定制类似CLIP的视觉语言模型。CoOp 使用可学习的向量来表示提示中的上下文单词，同时将预训练参数保持在固定状态。GALIP（Gen erative Adversarial CLIPs）是另一项进步，专为文本到图像生成任务而开发。在 CLIP Surgery 中，首先根据文本提示生成热图。然后从这些热图中采样的点提示，然后输入到 SAM中进行进一步处理。在此之后，采用利用 CLIP 的相似性算法来生成最终的分割图。SAMText 提出了一种灵活的方法来创建针对场景文本量身定制的分割掩码。此方法通过从现有场景文本检测模型中存在的注释派生边界框坐标来启动。然后，这些坐标会提示 SAM 生成掩码。Caption Anything 提出了一个用于图像字幕的基础模型增强框架，该框架可以从视觉和语言方面实现交互式多模态控制。通过将 SAM与 ChatGPT 相结合，用户可以灵活地在交互过程中使用各种提示（包括点提示或边界框提示）来操作图像。它还利用大型语言模型（LLM）来优化指令，确保它们准确反映用户的预期含义并与其意图保持一致。GPT-4V（ision）使用户能够解释和分析用户提供的图像输入

ReasoningTasks

在这里，论文呈现了不同类别的推理方法和任务：
常识推理（第3.1节）：探索推断和应用日常直觉知识的能力。
数学推理（第3.2节）：专注于解决数学问题和得出逻辑结论的能力。
逻辑推理（第3.3节）：检验基于形式逻辑进行推理和做出决策的过程。
因果推理（第3.4节）：调查理解因果关系及其影响的能力。
多模态推理（第3.7节）：涉及跨多种数据模态（如文本、图像和感官信息）的推理。
视觉推理（第3.5节）：专注于需要解释和操作视觉数据的任务。
实体推理（第3.8节）：探索与环境互动的实体代理的推理背景。
其他推理任务（第3.9节）：推理的讨论跨越各种背景，包括概念框架，如抽象推理3.9.7，可反驳推理3.9.8，以及应用领域，如医学推理3.9.3，生物信息学推理3.9.4等。
在这里插入图片描述

Foundation Model Techniques

论文介绍了不同类别的推理技术：
• 预训练（第 4.1 节）：探索推理基础模型的数据和架构。
• 微调（第 4.2 节）：专注于推理基础模型的微调数据和技术。
• 对齐训练（第 4.3 节）：检查推理基础模型所采用的对齐技术。
• 专家混合（第 4.4 节）：在推理的背景下介绍专家混合技术。
• 情境学习（第 4.5 节）：在推理基础模型中引入情境学习。