论文阅读：KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning-CSDN博客

本文链接：https://blog.csdn.net/Daisymanman/article/details/146053482

论文来源：AAAI 2024

论文地址：https://ojs.aaai.org/index.php/AAAI/article/view/29844

Abstract

LLM通过利用能够逐步思考的思维链在NLP任务中取得了很好的性能，但是为LLM扩展多模态能力时计算成本高，且需要大量的硬件资源。为了解决上述问题，本文提出了KAM-CoT框架，集成了CoT推理、知识图谱和多种模态，以全面理解多模态任务。

KAM-CoT采用两阶段式训练过程，连接知识图谱以生成有效的推理和答案，通过在推理过程中整合来自KG的外部知识，使模型获得更很层次的上下文理解，以缓解幻觉，并提高答案的质量。

这种知识增强的CoT推理能够使模型处理需要外部上下文的问题，提供更高质量的答案。

Introduction

对于CoT推理，KGs可以补充逐步推理过程，通过整合来自KGs的信息，LM可以更连贯地进行推理吗，并利用实体和属性之间的上下文关系。

本文利用KGs来增加多种模态以帮助模型充分挖掘CoT能力来解决复杂问题。LAM-CoT包括一个LM获取文本上下文，一个视觉编码器来编码视觉特征和一个图神经网络（GNN）以基于KGs进行推理。推理过程包括两个阶段，第一阶段生成合理的推理，第二阶段将生成的推理作为额外的输入并提供答案。KAM-CoT将文本、视觉和图特征拼接在一起，是模型能够连贯地思考和推理。

主要贡献：

1. 图提取，基于给定的上下文从ConceptNet中提取三元组；

2. 融合KG，将文本和图像模态与KG融合；

3. KAM-CoT，分阶段联合处理视觉、文本和KG，并逐步推理以生成合理的推理和答案。

Method

论文的核心思想与论文《Multimodal Chain-of-Thought Reasoning in Language Models》类似，第一步是训练模型生成推理，第二步是将第一步生成的推理作为额外的输入，使模型生成正确的答案，不同点在于MM-CoT只处理图像和文本模态，本文对该方法进行了扩展，将KG作为一种额外的模态，从而将生成过程建立在事实知识的基础上。