IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

最新推荐文章于 2023-03-15 21:55:19 发布

PaperWeekly

最新推荐文章于 2023-03-15 21:55:19 发布

阅读量729

点赞数

文章标签： python 机器学习人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126983566

版权

©PaperWeekly 原创 · 作者 | 武祥宇

单位 | 南京理工大学博士生

研究方向 | 多模态学习

论文标题：

Declaration-based Prompt Tuning for Visual Question Answering

收录会议：

IJCAI 2022

论文链接：

https://arxiv.org/abs/2205.02456

代码链接：

https://github.com/cciiplab/dpt

简介

1.1 问题

近年来，“预训练+微调”范式在跨模态任务中取得了巨大的成功，例如视觉问答（VQA），首先通过自监督任务（如 MLM、ITM 和 ITC）在大规模图文数据集上训练优化 visual-language pre-training 模型，再通过添加一个新的特定于任务的目标函数（如 answer prediction）进行微调以适应下游任务（如 VQA）。

然而，预训练任务目标和微调任务目标形式的不一致性（如微调 VQA 属于输入 image 和 question 的多分类任务，和预训练的任何一个任务都有很大的区别），不仅严重限制了预训练 VL 模型对下游任务的泛化，而且需要引入额外的参数和需要大量有标签数据进行微调。

1.2 方案

作者提出了一种新的 VL 微调范式（Declaration-based Prompt Tuning，简称DPT），这是第一次尝试使用陈述句进行视觉回答的 Prompt Tuning，即将下游 VQA 任务的优化目标形式重新转化为预训练阶段的形式，最大限度地缩小两个阶段之间的差距，促进预训练模型对下游任务的有效适应。

具体而言，DPT 通过：1）textual adaptation，将给定的 question 疑问句转化为陈述句形式进行 Prompt Tuning；2）task adaptation，以预训练阶段的任务目标来优化 VQA，即把 VQA 多分类任务转化为 MLM 和 ITM 任务，通过从陈述句中恢复 mask token 并选择最匹配的 image 来解

最低0.47元/天解锁文章

PaperWeekly

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

©PaperWeekly 原创 ·作者 |武祥宇单位 |南京理工大学博士生研究方向 |多模态学习论文标题：Declaration-based Prompt Tuning for Visual Question Answering收录会议：IJCAI 2022论文链接：https://arxiv.org/abs/2205.02456代码链接：https://github.com/cciipl...
复制链接

扫一扫