Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

515 篇文章 3 订阅

已下架不支持订阅

65 篇文章 0 订阅
29 篇文章 0 订阅
本文介绍MAIL方法,它解决基于知识的视觉问答(KVQA)中大型语言模型(LLM)的幻觉问题。MAIL采用两阶段提示策略将图像转换为场景图,结合外部知识构建耦合概念图,通过定制的伪siamese图介质融合实现多模态交互。实验显示,MAIL在资源减少24倍的情况下性能优于现有技术。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering》的翻译。

基于知识的视觉问答中模态感知与大型语言模型的集成

摘要

基于知识的视觉问答(KVQA)已被广泛研究,以利用外部知识(如知识图谱(KGs))回答视觉问题。虽然已经提出了几种利用大型语言模型(LLM)作为隐含知识源的尝试,但由于LLM可能会产生幻觉,这仍然具有挑战性。此外,对于复杂的场景,多个知识源,例如图像、KGs和LLM,不能容易地对齐。为了解决这些问题,我们为KVQA(MAIL)提出了一种新的模态感知集成LLM。它谨慎地利用多模态知识来进行图像理解和知识推理。具体而言,(i)我们提出了一种具有LLM的两阶段提示策略,以将图像密集地体现为具有详细视觉特征的场景图;(ii)我们通过将上述实体与外部事实联系起来,构建了一个耦合概念图。(iii)为充分的多模态融合设计了定制的伪siamese图介质融合。我们利用两个图中提到的共享实体作为媒介来桥接紧密的模态间交换,同时通过约束媒介内的融合来最大限度地保留深入的模态内学习。在两个基准数据集上进行的大量实验表明,MAI

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值