论文浅尝 | 基于多模态知识图的多模态推理(ACL2024)

efa0d1400b6df76b8ffd5d5b3df63299.png

笔记整理:李冰慧,天津大学硕士,研究方向为大语言模型

论文链接:https://aclanthology.org/2024.acl-long.579/

发表会议:ACL2024

1. 动机

使用大型语言模型(LLMs)的多模态推理经常会出现幻觉,并且在LLMs中存在缺乏或过时的知识。一些方法试图通过使用文本知识图来缓解这些问题,但它们的单一知识模态限制了全面的跨模态理解。

本文提出了基于多模态知识图的多模态推理(MR-MKG)方法,该方法利用多模态知识图(MMKGs)跨模式学习丰富的语义知识,显著提高了LLMs的多模态推理能力。特别地,利用关系图注意网络对MMKGs进行编码,并设计了一个跨模态对齐模块来优化图像-文本对齐。构建了一个MMKGgrait数据集,通过预训练使llm具备多模态推理的初步专业知识。

2. 贡献

(1)本文是第一个通过利用MMKGs衍生的知识来扩展LLMs的多模态推理能力的文章。

(2)提出了MR-MKG方法,专门设计用于从MMKGs中提取有价值的知识,并将多模态信息无缝集成到LLMs中。此外,本文还开发了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值