<<视觉问答IJCAI>>2022:Declaration-based Prompt Tuning for Visual Question Answering

在这里插入图片描述

收录情况IJCAI-2022
论文链接https://arxiv.org/abs/2205.02456
代码链接https://github.com/cciiplab/dpt


简介

问题

近年来,“预训练+微调”范式在跨模态任务中取得了巨大的成功,例如视觉问答(VQA),首先通过自监督任务(如MLMITMITC)在大规模图文数据集上训练优化visual-language pre-training模型,再通过添加一个新的特定于任务的目标函数(如answer prediction)进行微调以适应下游任务(如VQA)。然而,预训练任务目标和微调任务目标形式的不一致性(如微调VQA属于输入image和question的多分类任务,和预训练的任何一个任务都有很大的区别),不仅严重限制了预训练VL模型对下游任务的泛化,而且需要引入额外的参数和需要大量有标签数据进行微调。

方案

作者提出了一种新的VL微调范式(Declaration-based Prompt Tuning,简称DPT),这是第一次尝试使用陈述句进行视觉回答的Prompt Tuning,即将下游VQA任务的优化目标形式重新转化为预训练阶段的形式,最大限度地缩小两个阶段之间的差距,促进预训练模型对下游任务的有效适应。具体而言,DPT通过:(1)textual adaptation,将给定的question疑问句转化为陈述句形式进行Prompt Tuning; (2)task adaptation,以预训练阶段的任务目标来优化VQA,即把VQA多分类任务转化为MLM和ITM任务,通过从陈述句中恢复mask token并选择最匹配的image来解决VQA问题的任务适应。在GQA数据集上的实验结果表明,DPT在fully-supervised(2.68%)和 zero-shot/fewshot(over 31%)的准确性方面都优于其他微调方案。

相关工作

Pre-trained Vision-language Models

最近两年,针对各种下游跨模态任务训练一个通用模型的工作很多,例如visual question answeringimage captioning。具体而言,在预训练阶段,首先构建了一个类似bert的体系结构,通过各种自监督任务学习多模态表示的预训练,例如,在多模态上下文中进行的MLM任务或图像-文本匹配ITM任务。接下来,在微调阶段对预训练的模型进行微调,以适应使用完全不同的任务特定目标的下游任务,例如预测VQA任务的答案。在本研究中,作者并没有引入全新的任务目标进行优化,而是尝试将VQA重新制定为预训练的范式,促进了预训练的VL模型对下游任务的有效泛化

Cross-modal Prompt Tuning

Prompt Tuning具有保持预训练模型优化目标与下游任务一致的能力,这使得预训练模型泛化到下游任务,只需few/zero样本进行微调。然而,由于VQA任务给定问题的语义复杂性,固定的疑问句template或预先设定的统一生成范式在设计合适的Prompt模型时可能存在不足。为了克服这一问题,本文提出了一种新的基于陈述句的Prompt模型,利用问题自适应陈述句作为Prompt template,使VQA任务的文本格式更符合预训练阶段,缩小预训练和微调阶段之间的文本形式差距。

方法

Preliminary

给定一个在大规模图文数据集上预训练好的模型,微调VQA表示为输入一系列从image提取的region features和从question提取的text features,将其拼接fed to预训练好的模型,输出的[CLS] token通过额外的、特定于VQA任务的MLP层输出答案。

Declaration-based Prompt Tuning

在这里插入图片描述
如图1(b-d)所示,想要将微调VQA任务转换为预训练任务的形式,有两个挑战,一个是文本输入格式的不同 (question vs declaration) 和任务目标形式(MLM&ITM vs answer classification)的不同。因此,作者提出(1)Textual Adaptation,将问题转换为相应的陈述句;(2) Task Adaptation,将答案预测重新制定为MLM和ITM任务。
在这里插入图片描述
图2为整体方法架构,其中左下角Declaration Generation为将问题疑问句转化为陈述句的形式。最下方为VQA模型的输入,包含text features和image region features,Multi-Layer Transformers为预训练好的模型,如VinVL、Oscar、VisualBert等等,上方为Task Adaptation,对应预训练模型的MLM和ITM任务,目的是为了预测top-k个候选答案,并通过图文匹配的方式选择最匹配的答案。
Textual Adaptation via Declaration Generation. Textual Adaptation旨在将疑问句转化为陈述句,例如,“What is the red object left of the girl?”的陈述句形式是“A red [MASK] is left of the girl.”。为此,作者引入了陈述生成,将此过程表述为翻译问题,其中源文本和目标文本分别为问题疑问句和对应的陈述句。首先使用来自GQA数据集的注释构建一个陈述句数据集,其中“fullAnswer”被视为陈述句,“fullAnswer”中的short answer word/phrase被替换为[MASK]。然后,在该数据集上训练encoder-decoder模型T5,并使用auto-regressive cross-entropy进行优化。最后,该模型可用于将各种VQA数据集的问题疑问句转换为陈述句。
Task Adaptation. 将问题疑问句转化为陈述句形式后,就可以将VQA任务转化为预训练的MLM和ITM任务,包括(1)Adaptation to MLM task. 如图2上方,将VQA重新表述为MLM任务,首先将疑问句和陈述句拼接成文本输入,见图2下方:在这里插入图片描述
其中Q表示原始问题,D表示原始问题转化后的带有[MASK]的陈述句(如“a red [MASK] is left of the girl”),然后将其送入预训练好的模型,输出的[CLS]和[MASK]拼接用于预测并选择top-k个候选答案:在这里插入图片描述
(2)Adaptation to ITM task. 如图2上方,为了将VQA转化为ITM任务,陈述句D里的[MASK]被依次替换为top-k个答案,生成k个完整的陈述句,如“ a red tray/food/cloth is left of the girl.”:在这里插入图片描述
通过这种方式,将完整的陈述句和原始图像再次输入预训练好的模型,输出的[CLS]answer token拼接并预测图文匹配分数在这里插入图片描述
分数最高的答案即为最终预测的答案。

实验

Datasets. GQA,VQA v2.0
在这里插入图片描述
表1为在GQA数据集上的结果,第三块打勾的模型方法均为多模态预训练+微调的模型,作者提出的DPT模型是在建立在VinVL模型基础上的Prompt Tuning,可以看到在GQA数据集balance split上,DPT较VinVL模型提升接近%3.0,最下一行在GQA全部数据集样本上,DPT较VinVL也有着小幅度提升
在这里插入图片描述
表2中,(1)Baseline为对VinVL模型标准fine-tuning,即不含有任何prompts;(2)Mask为 "Answer: [MASK]"的prompt形式,模型预测的mask即为答案;(3)Dynamic为 "Answer: [V1][V2]…[V16][MASK]"的形式,其中’[V1]‘-’[V16]'表示在微调期间联合训练的可学习的token;(4)Declaration为 "Answer: D"形式,D即为作者提出的带有Mask的陈述句形式。[C][M]为[CLS]和[Maks] token,作为模型输出的表征。
在这里插入图片描述
表3为基于不同的预训练模型进行DPT微调的结果,可以看到,在不同的多模态预训练模型的基础上应用Declaration Promps Tuning均有提升。

总结

作者提出将视觉问答任务重新表述为MLMITM的任务,最大限度地缩小视觉语言(VL)预训练和微调阶段之间不一致的差距。为此,首先将问题疑问句转换为陈述句,使用保留的[MASK]或候选答案,以减少文本输入格式的差异。然后,通过任务适应将VQA重新表述为预训练的格式,以MLMITM任务的方式解决VQA问题。在两个数据集上的大量实验验证了DPT范式在不同预训练VL模型上的有效性和可泛化性,这些模型在fully-supervised和zero-shot/few-shot下都适用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值