＜＜视觉问答IJCAI＞＞2022：Declaration-based Prompt Tuning for Visual Question Answering

金克丝、

已于 2022-09-18 14:49:51 修改

阅读量410

点赞数 1

分类专栏： Visual Question Answering 文章标签：自然语言处理 transformer 人工智能深度学习

于 2022-09-14 20:04:18 首次发布

本文链接：https://blog.csdn.net/m0_56533033/article/details/126850415

版权

Visual Question Answering 专栏收录该内容

26 篇文章 12 订阅

订阅专栏

在这里插入图片描述

收录情况：IJCAI-2022
论文链接：https://arxiv.org/abs/2205.02456
代码链接：https://github.com/cciiplab/dpt

文章目录

简介
- 问题
- 方案
相关工作
- Pre-trained Vision-language Models
- Cross-modal Prompt Tuning
方法
- Preliminary
- Declaration-based Prompt Tuning
实验
总结

简介

问题

近年来，“预训练+微调”范式在跨模态任务中取得了巨大的成功，例如视觉问答(VQA)，首先通过自监督任务(如MLM、ITM和ITC)在大规模图文数据集上训练优化visual-language pre-training模型，再通过添加一个新的特定于任务的目标函数(如answer prediction)进行微调以适应下游任务(如VQA)。然而，预训练任务目标和微调任务目标形式的不一致性(如微调VQA属于输入image和question的多分类任务，和预训练的任何一个任务都有很大的区别)，不仅严重限制了预训练VL模型对下游任务的泛化，而且需要引入额外的参数和需要大量有标签数据进行微调。

方案

作者提出了一种新的VL微调范式(Declaration-based Prompt Tuning，简称DPT)，这是第一次尝试使用陈述句进行视觉回答的Prompt Tuning，即将下游VQA任务的优化目标形式重新转化为预训练阶段的形式，最大限度地缩小两个阶段之间的差距，促进预训练模型对下游任务的有效适应。具体而言，DPT通过：(1)textual adaptation，将给定的question疑问句转化为陈述句形式进行Prompt Tuning; (2)task adaptation，以预训练阶段的任务目标来优化VQA，即把VQA多分类任务转化为MLM和ITM任务，通过从陈述句中恢复mask token并选择最匹配的image来解决VQA问题的任务适应。在GQA数据集上的实验结果表明，DPT在fully-supervised(2.68%)和 zero-shot/fewshot(over 31%)的准确性方面都优于其他微调方案。

方法

Preliminary

给定一个在大规模图文数据集上预训练好的模型，微调VQA表示为输入一系列从image提取的region features和从question提取的text features，将其拼接fed to预训练好的模型，输出的[CLS] token通过额外的、特定于VQA任务的MLP层输出答案。

Declaration-based Prompt Tuning

如图1(b-d)所示，想要将微调VQA任务转换为预训练任务的形式，有两个挑战，一个是文本输入格式的不同 (question vs declaration) 和任务目标形式(MLM&ITM vs answer classification)的不同。因此，作者提出(1)Textual Adaptation，将问题转换为相应的陈述句;(2) Task Adaptation，将答案预测重新制定为MLM和ITM任务。

图2为整体方法架构，其中左下角Declaration Generation为将问题疑问句转化为陈述句的形式。最下方为VQA模型的输入，包含text features和image region features，Multi-Layer Transformers为预训练好的模型，如VinVL、Oscar、VisualBert等等，上方为Task Adaptation，对应预训练模型的MLM和ITM任务，目的是为了预测top-k个候选答案，并通过图文匹配的方式选择最匹配的答案。
Textual Adaptation via Declaration Generation. Textual Adaptation旨在将疑问句转化为陈述句，例如，“What is the red object left of the girl?”的陈述句形式是“A red [MASK] is left of the girl.”。为此，作者引入了陈述生成，将此过程表述为翻译问题，其中源文本和目标文本分别为问题疑问句和对应的陈述句。首先使用来自GQA数据集的注释构建一个陈述句数据集，其中“fullAnswer”被视为陈述句，“fullAnswer”中的short answer word/phrase被替换为[MASK]。然后，在该数据集上训练encoder-decoder模型T5，并使用auto-regressive cross-entropy进行优化。最后，该模型可用于将各种VQA数据集的问题疑问句转换为陈述句。
Task Adaptation. 将问题疑问句转化为陈述句形式后，就可以将VQA任务转化为预训练的MLM和ITM任务，包括(1)Adaptation to MLM task. 如图2上方，将VQA重新表述为MLM任务，首先将疑问句和陈述句拼接成文本输入，见图2下方:
其中Q表示原始问题，D表示原始问题转化后的带有[MASK]的陈述句(如“a red [MASK] is left of the girl”)，然后将其送入预训练好的模型，输出的[CLS]和[MASK]拼接用于预测并选择top-k个候选答案：
(2)Adaptation to ITM task. 如图2上方，为了将VQA转化为ITM任务，陈述句D里的[MASK]被依次替换为top-k个答案，生成k个完整的陈述句，如“ a red tray/food/cloth is left of the girl.”：
通过这种方式，将完整的陈述句和原始图像再次输入预训练好的模型，输出的[CLS]和answer token拼接并预测图文匹配分数：
分数最高的答案即为最终预测的答案。

实验

Datasets. GQA，VQA v2.0

表1为在GQA数据集上的结果，第三块打勾的模型方法均为多模态预训练+微调的模型，作者提出的DPT模型是在建立在VinVL模型基础上的Prompt Tuning，可以看到在GQA数据集balance split上，DPT较VinVL模型提升接近%3.0，最下一行在GQA全部数据集样本上，DPT较VinVL也有着小幅度提升。

表2中，(1)Baseline为对VinVL模型标准fine-tuning，即不含有任何prompts；(2)Mask为 "Answer: [MASK]"的prompt形式，模型预测的mask即为答案；(3)Dynamic为 "Answer: [V1][V2]…[V16][MASK]"的形式，其中’[V1]‘-’[V16]'表示在微调期间联合训练的可学习的token；(4)Declaration为 "Answer: D"形式，D即为作者提出的带有Mask的陈述句形式。[C]和[M]为[CLS]和[Maks] token，作为模型输出的表征。

表3为基于不同的预训练模型进行DPT微调的结果，可以看到，在不同的多模态预训练模型的基础上应用Declaration Promps Tuning均有提升。

总结

作者提出将视觉问答任务重新表述为MLM和ITM的任务，最大限度地缩小视觉语言(VL)预训练和微调阶段之间不一致的差距。为此，首先将问题疑问句转换为陈述句，使用保留的[MASK]或候选答案，以减少文本输入格式的差异。然后，通过任务适应将VQA重新表述为预训练的格式，以MLM和ITM任务的方式解决VQA问题。在两个数据集上的大量实验验证了DPT范式在不同预训练VL模型上的有效性和可泛化性，这些模型在fully-supervised和zero-shot/few-shot下都适用。