Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

最新推荐文章于 2024-08-25 09:30:17 发布

UnknownBody

最新推荐文章于 2024-08-25 09:30:17 发布

阅读量29

点赞数

分类专栏： Multimodal LLM for NLP 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/137771655

版权

LLM 日更同时被 3 个专栏收录

515 篇文章 3 订阅

已下架不支持订阅

Multimodal

65 篇文章 0 订阅

订阅专栏

LLM for NLP

29 篇文章 0 订阅

订阅专栏

本文介绍MAIL方法，它解决基于知识的视觉问答（KVQA）中大型语言模型（LLM）的幻觉问题。MAIL采用两阶段提示策略将图像转换为场景图，结合外部知识构建耦合概念图，通过定制的伪siamese图介质融合实现多模态交互。实验显示，MAIL在资源减少24倍的情况下性能优于现有技术。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering》的翻译。

摘要

基于知识的视觉问答（KVQA）已被广泛研究，以利用外部知识（如知识图谱（KGs））回答视觉问题。虽然已经提出了几种利用大型语言模型（LLM）作为隐含知识源的尝试，但由于LLM可能会产生幻觉，这仍然具有挑战性。此外，对于复杂的场景，多个知识源，例如图像、KGs和LLM，不能容易地对齐。为了解决这些问题，我们为KVQA（MAIL）提出了一种新的模态感知集成LLM。它谨慎地利用多模态知识来进行图像理解和知识推理。具体而言，（i）我们提出了一种具有LLM的两阶段提示策略，以将图像密集地体现为具有详细视觉特征的场景图；（ii）我们通过将上述实体与外部事实联系起来，构建了一个耦合概念图。（iii）为充分的多模态融合设计了定制的伪siamese图介质融合。我们利用两个图中提到的共享实体作为媒介来桥接紧密的模态间交换，同时通过约束媒介内的融合来最大限度地保留深入的模态内学习。在两个基准数据集上进行的大量实验表明，MAI

了解本专栏

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

基于知识的视觉问答（KVQA）已被广泛研究，以利用外部知识（如知识图谱（KGs））回答视觉问题。虽然已经提出了几种利用大型语言模型（LLM）作为隐含知识源的尝试，但由于LLM可能会产生幻觉，这仍然具有挑战性。此外，对于复杂的场景，多个知识源，例如图像、KGs和LLM，不能容易地对齐。为了解决这些问题，我们为KVQA（MAIL）提出了一种新的模态感知集成LLM。它谨慎地利用多模态知识来进行图像理解和知识推理。
复制链接

扫一扫