<<视觉问答AAAI>>2022:Multi-Modal Answer Validation for Knowledge-Based VQA

在这里插入图片描述

收录情况AAAI-2022
论文链接https://arxiv.org/abs/2103.12248
代码链接https://github.com/jialinwu17/mavex


简介

问题

在这里插入图片描述
knowledge-based visual question answering是指模型不仅需要图像的视觉信息和问题的语义信息,还需要图像中的对象所蕴含的外部知识才能够正确的回答问题。这些知识通常以各种形式出现,包括视觉知识、文本知识和常识知识,也可以从各种来源获得,如图像搜索引擎、百科全书文章和概念关系知识库,如图1,每个问题都需要不同类型的外部知识。

当前大多数knowledge-based VQA方法遵循两阶段框架,模型首先检索与问题和图像相关的知识,再由一个单独的融合理解模型预测答案。然而,使用更多的知识来源来检索知识增加了检索到无关或噪声事实的机会,即检索到的知识往往是有噪声的。

方案

作者提出了Multi-modal Answer Validation using External knowledge(MAVEx),其思想是基于特定答案的知识检索来验证一组候选答案,进而输出最匹配的答案。MAVEx的关键直觉是:使用检索到的知识来验证候选答案的有效性比在开放的外部知识里检索来寻找答案更可靠。

因此,作者设计一个模型,根据检索到的知识事实来评估每个候选答案的有效性。现有的方法是在大量检索到的可能不相关的知识事实中寻找答案,MAVEx旨在了解每个候选答案应该信任哪个知识来源,以及如何使用该来源验证候选答案。作者考虑了文本和视觉的多模态知识,包括使用谷歌搜索的图像、来自维基百科文章的句子和来自ConceptNet的概念关系。

相关工作

Visual Question Answering

视觉问答(VQA)需要模型根据给定的图像和问题来回答这个问题。传统的方法通常基于Transformer融合图像和问题以进行推理,随着多模态图文预训练领域的兴起,也使得视觉问答成为了评估多模态预训练能否有效融合图像和文本的一项基础指标。

Knowledge-Based VQA

Datasets. KB-VQA包含2402个问题,由700张图片通过template生成。F-VQA包含5826个问题,其中每个问题-答案对都使用从知识库中检索的基本事实三元组标注。OK-VQA是一个最新的数据集,包括14031张图片,14055个问题,是一个提供了需要开放领域知识的更大规模数据集。
KB-VQA models. Knowledge-based VQA主要遵循两个趋势,template fittinglearning-based。template fitting的主要局限性是template是手工设计的,很难容纳使用template回答问题所需的丰富知识。learning-based方法可以获取有用的事实和常识知识,以获得更好的性能。与这些方法相比,我们将该任务表述为answer validation问题,其思想是学习使用多模态噪声知识源验证一组候选答案,输出最匹配的答案。

方法

MAVEx three-stage Framework

MAVEx是一个三阶段方案,首先使用当前先进的VQA模型生成一组候选答案,再将问题和候选答案解析,以检索外部知识,最后预测每个知识来源对每个候选答案的可信度,预测最匹配的答案。与前人工作不同的是,除了检索与问题相关的文本知识外,还为每个候选答案挖掘多种模态类型的知识。因此,作者考虑了三个知识来源:WikipediaConceptNet作为文本知识资源,谷歌图像搜索作为图像知识资源,分别提供事实知识、常识知识和视觉知识。最后,使用答案验证模块通过检索到的多模态知识验证每个候选答案。
在这里插入图片描述

Stage-1、Answer Candidate Generation

作者使用在OK-VQA数据集上微调后的ViLBERT生成一组候选答案。

Stage-2、Answer Guided Knowledge Retrieval

给定一个答案,通过以下三个步骤(如图3)检索相关的外部知识。

S1: Query Extraction

这一步需要收集候选答案、表示问题的短语和表示图像的概念,最后得到一组queries,分成三部分:
(图3 Noun Chunks (S1))Extract noun phrases from question and answers. 使用AllenNLP解析器对问题进行解析构建解析树,提取解析树叶子上的所有名词。并提取三种类型的名词短语:包含‘wh’或‘how’的目标名词短语、问题名词短语、每个候选答案组成的名词短语。
(图3 没有绘出此步骤)Link phrases to objects. 使用ViLBERT-multi-task作为对象链接器,输入一系列检测对象和一个名词短语,提取对象和名词短语链接概率分数高于0.5的对象。
(图3 Queries (S1))Generate search query set. 生成一组queries来搜索外部知识库。例如,‘man in this position’ 的queries是’man’和’sitting man’,其中sitting是从视觉属性推断出来的。

S2: Answer Guided Knowledge Pool Construction

这一步使用步骤S1中得到的queries来构建知识库:
(图3 S q a 1 S_{qa1} Sqa1 S q a 2 S_{qa2} Sqa2) Conversion to a natural language statement. 使用T5模型将问题和候选答案转换为自然语言陈述句。
(图3 WikiPedia Pool (S2)、Concepts Pool (S2)) Retrieval of textual facts and concepts. 在Wikipedia和ConceptNet中,作者搜索S1步骤中得到的每个query。计算检索的文章的每个sentence和每个自然语言陈述句 S q a S_{qa} Sqa之间的BERTScore。对于每个陈述句,从每篇检索文章中提取的top 15个sentences(根据BERTScore)放入sentence pool。
(图3 Visual knowledge Pool (S2)) Retrieval of visual knowledge. 文本知识可能过于笼统,而图像可能更有信息量(如图1中的第3个问题)。因此,视觉知识可以补充文本信息,进一步丰富外部知识特征空间。对于给定的图像,作者使用MaskRCNN对象检测器来检测常见对象作为内部知识。使用谷歌图像搜索,使用语句 S q a S_{qa} Sqa作为外部视觉知识的query,检索top 5个图像。

S3: Matching Knowledge Pool to Queries

作者不是简单地使用S2步骤得到的知识作为外部知识,而是将整个pool中的sentence匹配到每个query。作者认为大多数queries不能直接检索有用的事实,但可以帮助检索到应该包含在外部知识中的重要信息。
(图3 WikiPedia Knowledge、ConceptNet Knowledge) Matching Textual Knowledge. 为了确保知识相关性,删除了只与单个query匹配的sentence。对于每个query,根据sentence和所有 S q a S_{qa} Sqa之间的最大BERTScore,从Wikipedia和ConceptNet pool中提取最多m个sentences。
(图3 Visual knowledge) Matching Visual Knowledge. 对每个问题名词短语选取图像中前3个引用对象(S1步骤的第二步)。对每个答案名词短语,选取谷歌图像搜索来检索top 5的图像。

Stage-3、Answer Candidate Validation

该模块将候选答案和检索的外部知识作为输入,并输出一个标量分数,表示该知识支持该候选答案的程度。作者在ViLBERT系统的基础上构建MAVEx,给定一个问题和一个图像,ViLBERT生成图像文本联合表征,对于检索的每个知识sentence,使用TinyBERT提取文本特征,对于检索到的视觉知识中的每一幅图像,使用MaskRCNN提取物体对象特征。
在这里插入图片描述
(图4 KnowledgeModule) Multi-Granular Knowledge Embedding Module. 为了更好地聚合检索到的知识,采用一个Multi-Granular知识嵌入模块,该模块学习识别每个名词短语的关键的query,然后识别用于回答问题的关键的名词短语。注意知识嵌入模块对于每个知识来源是相同的,但是模块参数不同,图4只展示了维基百科上的知识嵌入模块。对问题中每个query r i n r^n_i rin的知识嵌入 w i n w^n_i win,计算问题中每个名词短语的知识嵌入 w n w^n wn如下:
在这里插入图片描述
其中MHAtt为多头注意力机制,这里不再赘述, w i n w_i^n win为知识嵌入,作为MHAtt的key和value, u n u^n un为ViLBERTT提取的图像问题对的联合表征,作为MHAtt的query,用以指导聚合检索到的知识。类似地,对于每个候选答案 a a a,我们使用MHAtt模块在知识特征 w i n a w_i^{n_a} wina上计算知识嵌入 w a w^a wa,如下所示:
在这里插入图片描述
然后,使用另一个MHAtt模块从每个名词短语聚集知识。具体而言,给定每个名词短语的知识嵌入,知识嵌入 w w w计算如下:
在这里插入图片描述
(图4-Knowledge Module) Answer Prediction and Validation Module. 给定三个知识源的知识嵌入 k ∈ w ^ , c ^ , m ^ k \in {\hat{w}},\hat{c}, \hat{m} kw^,c^,m^,MAVEx预测答案的概率为 P k = F F N ( k + z ) P^k=FFN(k+z) Pk=FFN(k+z),最终预测的答案是 P = m a x ( P k ) P=max(P^k) P=max(Pk)。验证模块将候选答案 a a a和来自三个来源的知识特征作为输入,以了解该知识对候选答案的支持程度。首先使用对应陈述句的BERT特征和答案本身的glove特征的和来嵌入作为候选答案特征,即 f a n s ( a ) = ( B E R T ( s q a ) + g l o v e a ) f_{ans}(a)=(BERT(s_{qa})+glove_{a}) fans(a)=(BERT(sqa)+glovea)。然后,候选答案 a a a的验证得分 J ( a , a ′ ) J(a,a^{'}) J(a,a)使用为 a ′ a^{'} a(一个不同的候选答案)检索的知识计算为 J a , a ′ k = F F N ( f a n s ( a ) ∘ k a ′ ) J^k_{a,a^{'}}=FFN(f_{ans}(a) \circ k^{a^{'}}) Ja,ak=FFN(fans(a)ka),其中 ∘ \circ 表示逐元素相乘。最终的验证得分是三个知识来源的最大验证置信度,即 J ( a , a ′ ) = m a x J k ( a , a ′ ) J(a,a^{'})=max{J^k(a,a^{'})} J(a,a)=maxJk(a,a)
损失函数如下,其中 s ( a ) s(a) s(a)为对于预测答案a的soft score。
在这里插入图片描述

实验

Datasets. OK-VQA是目前最大的基于知识的VQA数据集,具有两个优势:(1)这些问题确实需要图像以外的外部知识;(2)现有知识库无法覆盖所有问题,因此需要系统探索开放领域的知识资源。
在这里插入图片描述
表1显示,MAVEx的性能始终明显优于之前的方法。例如,MAVEx单模型的性能分别优于KRISP和ConceptBert 1.4%和6.6%。与KRISP相比,三个具有不同初始化的MAVEx模型的集成提高了2.47%。
在这里插入图片描述
表2中为使用不同知识来源组合的性能。与基本ViLBERT模型相比,三个知识来源(WikiPedia、ConceptNet和Images)分别提高了3.4、3.3和3.1的性能,而结合这三个来源可以在ViLBERT基线的基础上获得5%的性能增益。

总结

作者提出了一种新的基于知识的视觉问答方法MAVEx。目标是从不同的知识来源检索特定的答案文本和视觉多模态知识,并了解哪些来源包含最相关的信息,在大量检索到的知识中进行搜索,通常是相当嘈杂的,这是具有挑战性的。因此,作者将这项任务表述为答案验证,其目标是根据检索到的知识学习验证一组候选答案的有效性,更具体地说,答案候选者验证模块预测为每个候选者检索到的知识提供的支持程度,并决定对每个候选答案信任哪些来源。MAVEx展示了答案引导知识检索的明显优势,在OK-VQA数据集上实现了最先进的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AAAI 2020的教程“可解释人工智能”将重点介绍可解释人工智能的概念、方法和应用。可解释人工智能是指人工智能系统能够以一种可理解的方式解释其决策和行为的能力。该教程将涵盖可解释人工智能的基本原则和方法,包括规则推理、可视化技术、模型解释和对抗性机器学习等。 在教程中,我们将首先介绍可解释人工智能的背景和意义,解释为什么可解释性对于人工智能的发展至关重要。然后,我们将深入探讨可解释人工智能的基本概念和技术,例如局部解释和全局解释。我们还将介绍一些关键的可解释性方法,如LIME(局部诠释模型)和SHAP(SHapley Additive exPlanations),并解释它们的原理和应用场景。 此外,我们还将探讨可解释人工智能在各个领域的具体应用,包括医疗诊断、金融风险管理和智能驾驶等。我们将分享一些成功的案例和实践经验,探讨可解释人工智能在实际应用中的挑战和解决方案。最后,我们还将讨论未来可解释人工智能的发展趋势和挑战,展望可解释性在人工智能领域的重要性和前景。 通过参加该教程,学习者将能够全面了解可解释人工智能的概念、方法和应用,理解其在实际应用中的重要性,掌握一些关键的可解释性技术和工具,并对可解释人工智能的未来发展有一个清晰的认识。希望通过这次教程,能够为学习者提供一个全面而深入的可解释人工智能学习和交流平台。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值