简介
动机
由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对“域变化”鲁棒。但是,这些domain adaptation方法并不适用于VQA任务,主要由于三个原因:
- VQA任务的输入是多模态的;
- VQA方法由不同的模块构成了多个步骤,导致优化复杂;
- 不同的VQA数据集的answer space是不同的。
为了应对上述问题,作者主要做了以下三个方面的工作:
- 量化不同VQA数据集之间的domain shift,并在image和question domain分别合成了新的数据。
- 测试了不同类型的VQA方法的鲁棒性。
- 测试了现有的domain adaptation方法,并提出了一个新的更适用于VQA任务的方法。
方法
个人认为,本文主要的贡献在于,作者通过分析不同方法的鲁棒性,得出“NMNs方法较为鲁棒”的结论,进一步做了“推理是和domain无关”的假设。根据这个假设,作者设计了适用于VQA领域的domain adaptation方法,也就是下图中的Two-stage DA。核心思想就是,把Visual Encoder预训练好,再去训练VQA模型(此时保持Visual Encoder不更新)。也就是说:Training Stage 1学习表达,Training Stage 2学习推理,由于“推理和domain无关”,所以得到的模型更加鲁棒。
实验
下图是作者测试了不同VQA数据集之间的domain gap:
下表是不同类方法的domain adaptation性能测试(分别是image shift和question shift情况下):
接下来,作者测试了本文提出的训练策略和已有的domain adaptation方法的对比: