自我介绍:
您好,我们是一群热情洋溢的探索者,致力于深耕于知识图谱和大型语言模型(LLM)领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信,知识的传播和交流是促进创新和社会发展的关键力量。
论文标题
Multimodal Reasoning with Multimodal Knowledge Graph
论文链接
https://arxiv.org/abs/2406.02030
作者
Junlin Lee, Yequan Wang, Jing Li, Min Zhang
论文来源
ACL 2024
论文背景
大语言模型的多模态推理常常存在幻觉或过时知识等缺陷,一些方法试图使用文本知识图缓解问题,但单一的知识形态限制了跨模态理解。
文本提出了多模态推理与多模态知识图(MR-MKG)方法,该方法利用多模态知识图跨模态学习丰富的语义知识,显著提高了LLM的多模态推理能力。
问题分析
LLM已经证明在各种NLP任务中的优越性和鲁棒性,为了进一步释放LLM的潜力,研究人员试图赋予LLM多模态推理能力,如视觉LLM,BLIP-2,MiniGPT-4等,尽管这些模型在推理图像和文本方面有一些进展,但他们仍有容易产生幻觉,这通常是上下文信息不足或信息过时导致的。
另一个解决方案是对LLM进行微调以更新其知识库,这样的做法会产生昂贵的费用,同时还会耗费大量的时间。
还有一个策略是利用KGs直接向LLM提供必要的知识手段,这样单一模态信息限制了LLM处理和推理多模态信息的能力。
由此,以上限制导致本文提出一种多模态知识图MMKGs来替代文本知识图。
理论方法
上图就是MR-MKG架构图。本文提出的MR-MKG方法,旨在通过从MMKGs中学习从而扩展LLM的多模态信息。具体来说,MR-MKG首先使用RGAT对检索到的知识图节点编码嵌入(子图MMKGs);设计知识和视觉适配层进行跨模态融合;将知识节点和视觉嵌入分别映射到llm的词嵌入;最后,将知识节点、图像和文本的嵌入连接起来形成提示(prompt),转发给LLM 提供指导。
MR-MKG由五部分组成,分别是:语言编码器、视觉编码器、KG编码器、知识适配器、跨模态对齐模块;
1.语言编码器
语言编码器采用现成的llm(llama)中的嵌入层,在训练和推理阶段保持固定。形式上,文本由语言编码器处理,产生文本嵌入HT。
2.KG编码器+知识适配器
KG编码器:给定文本和图像,利用预训练的MR-MKG从MMKG中检索子图G来识别相关知识,其中的TOP-N个最相关三元组,有可能不包含相关的三元组,从而引入噪声,此外如果把所有的三元组直接输入到提示符中,噪声会干扰,并且顺序提示不能有效的捕获MMKG中的关系结构;考虑到G的复杂结构,采用关系图注意网络RGAT来嵌入知识节点。具体来说,首先利用CLIP初始化节点和关系嵌入,接下来利用RAGT网络对G进行编码,生成知识节点嵌入XK。
知识适配器:为了使LLM能够理解多模态知识节点嵌入,我们引入了一个知识适配器,将XK转换为LLM可以理解的文本嵌入。这个知识适配器旨在弥合多模态知识和文本之间的固有差距,促进更无缝的对齐。具体来说,通过以下方式将节点嵌入XK映射到知识语言嵌入H ’ K。
这里需要注意的是:图中Retrieved MMKG是从预训练MMKG中召回的子图,刚开始读这篇论文的时候还很费劲,第二遍读的时候就清晰了。
3.视觉适配器
视觉适配器:采用CLIP将图像转换为视觉特征XI,利用线性层将视觉特征XI转换为视觉语言嵌入HI,与LLM的词嵌入向量共享相同维度,利用单头注意力网络,获得与文本嵌入HT相关的最终视觉特征H‘I。
4.跨模态对齐模块
该模块从G中随机选择一组图像实体,并提示模型将其与对应的文本实体进行精确匹配。所选图像对应的知识节点嵌入表示为H’KI,其相关文本节点的嵌入表示为H’KT。我们使用三重态损失(Schroff et al., 2015)进行校准。当一个图像实体{H ’ KI}i的嵌入作为锚点xa时,其对应的文本实体嵌