笔记整理:李冰慧,天津大学硕士,研究方向为大语言模型
论文链接:https://aclanthology.org/2024.acl-long.579/
发表会议:ACL2024
1. 动机
使用大型语言模型(LLMs)的多模态推理经常会出现幻觉,并且在LLMs中存在缺乏或过时的知识。一些方法试图通过使用文本知识图来缓解这些问题,但它们的单一知识模态限制了全面的跨模态理解。
本文提出了基于多模态知识图的多模态推理(MR-MKG)方法,该方法利用多模态知识图(MMKGs)跨模式学习丰富的语义知识,显著提高了LLMs的多模态推理能力。特别地,利用关系图注意网络对MMKGs进行编码,并设计了一个跨模态对齐模块来优化图像-文本对齐。构建了一个MMKGgrait数据集,通过预训练使llm具备多模态推理的初步专业知识。
2. 贡献
(1)本文是第一个通过利用MMKGs衍生的知识来扩展LLMs的多模态推理能力的文章。
(2)提出了MR-MKG方法,专门设计用于从MMKGs中提取有价值的知识,并将多模态信息无缝集成到LLMs中。此外,本文还开发了