论文阅读:KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning

论文来源:AAAI 2024

论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/29844


Abstract 

LLM通过利用能够逐步思考的思维链在NLP任务中取得了很好的性能,但是为LLM扩展多模态能力时计算成本高,且需要大量的硬件资源。为了解决上述问题,本文提出了KAM-CoT框架,集成了CoT推理、知识图谱和多种模态,以全面理解多模态任务。

KAM-CoT采用两阶段式训练过程,连接知识图谱以生成有效的推理和答案,通过在推理过程中整合来自KG的外部知识,使模型获得更很层次的上下文理解,以缓解幻觉,并提高答案的质量。

这种知识增强的CoT推理能够使模型处理需要外部上下文的问题,提供更高质量的答案。


 Introduction

对于CoT推理,KGs可以补充逐步推理过程,通过整合来自KGs的信息,LM可以更连贯地进行推理吗,并利用实体和属性之间的上下文关系。

本文利用KGs来增加多种模态以帮助模型充分挖掘CoT能力来解决复杂问题。LAM-CoT包括一个LM获取文本上下文,一个视觉编码器来编码视觉特征和一个图神经网络(GNN)以基于KGs进行推理。推理过程包括两个阶段,第一阶段生成合理的推理,第二阶段将生成的推理作为额外的输入并提供答案。KAM-CoT将文本、视觉和图特征拼接在一起,是模型能够连贯地思考和推理。

主要贡献:

1. 图提取,基于给定的上下文从ConceptNet中提取三元组;

2. 融合KG,将文本和图像模态与KG融合;

3. KAM-CoT,分阶段联合处理视觉、文本和KG,并逐步推理以生成合理的推理和答案。


Method 

论文的核心思想与论文《Multimodal Chain-of-Thought Reasoning in Language Models》类似,第一步是训练模型生成推理,第二步是将第一步生成的推理作为额外的输入,使模型生成正确的答案,不同点在于MM-CoT只处理图像和文本模态,本文对该方法进行了扩展,将KG作为一种额外的模态,从而将生成过程建立在事实知识的基础上

为了获得用于推理生成的文本输入,论文只是简单的将不同的文本部分进行拼接,X_{lang}^{rat}=[q,c;[a_1,a_2,...,a_k]],对于答案选择预测, 则增加推理X_{lang}^{rat}=[q,c;[a_1,a_2,...,a_k];r]

然后为每个样本提取一个子图X_{kg},通过训练模型F_{rat}\left ( \cdot \right )来生成推理r

r=F_{rat}\left ( X_{lang}^{rat},X_{img},X_{kg} \right )

与上述过程类似,为了生成正确的答案,训练模型F_{ans}\left ( \cdot \right )

a=F_{ans}\left ( X_{lang}^{ans},X_{img},X_{kg} \right )

最后,通过计算生成文本的概率类获得推理或答案:

P\left ( Y|X_{lang},X_{img},X_{kg} \right )=\prod_{i=1}^{N}p_\theta (Y_i|X_{lang},X_{img},X_{kg} ,Y_{<i})

整过的推理过程如下:

编码不同模态的输入

文本编码:使用基于Transformer的语言编码器对X_{lang}进行编码,获得H_{lang}\in \mathbb{R}^{n\times d}

图像编码:使用基于Transformer的图像编码器对X_{img}进行编码,获得H_{img}\in \mathbb{R}^{m\times d}

子图选择:

        对于每个样本,从ConceptNet中选择一个子图。具体来说,将ConceptNet中的关系划分为17中不同的类型,这些可以可以是正向的或反向的,总共34中可能得边类型,三元组被转换为句子,并存储为响应的句子模式,用于从问题、上下文和答案选择中提取结点。

        为了获取初始化节点嵌入,使用与文本编码相同的预训练检查点对语言编码器进行训练(确保语言和结点嵌入在相同的嵌入空间),并在该节点的跨度内取嵌入的平均值。

图编码:利用图神经网络获取子图编码H_{kg}\in\mathbb{R}^{p\times d}

模态间的交互

使用交叉注意力来实现文本、图像和子图表示之间的交互,如图2所示,第一个注意力模块实现语言和图像嵌入之间的交互,另一个注意力模块实现语言和结点之间的交互。

 特征融合

 解码

使用一个Transformer解码器获得自回归生成的文本:

实验 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值