简介
本文是在NIPS 2019 ViLBERT上的拓展。
论文链接
动机
本文修改了ViLBERT的预训练过程,有两个小修改:1. 对regions进行mask时,将IoU大于0.4的regions也mask掉,避免视觉信息泄漏;2. 在多模态对齐的负样本采样时,不强制masked multi-modal modelling loss,这样可以有效地降低负样本带来的噪声。
贡献
- 提出Clean V&L Multi-Task setup,可以在多任务训练过程中,确保没有任务泄漏;
- 提出多任务训练模型,在12个V&L数据集上同时训练,在四个任务上进行了验证:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。
方法
本文没给框架图,下图出自NIPS 2019 ViLBERT。
多任务学习的过程:
实验
下图是实验结果,row1-2是single-task training,row3-5是multi-task training,row6-9是task-specific fine-tuning。
在多个任务上和SOTA的对比: