CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记

简介

论文链接

动机

由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对“域变化”鲁棒。但是,这些domain adaptation方法并不适用于VQA任务,主要由于三个原因:

  1. VQA任务的输入是多模态的;
  2. VQA方法由不同的模块构成了多个步骤,导致优化复杂;
  3. 不同的VQA数据集的answer space是不同的。

为了应对上述问题,作者主要做了以下三个方面的工作:

  1. 量化不同VQA数据集之间的domain shift,并在image和question domain分别合成了新的数据。
  2. 测试了不同类型的VQA方法的鲁棒性。
  3. 测试了现有的domain adaptation方法,并提出了一个新的更适用于VQA任务的方法。

方法

个人认为,本文主要的贡献在于,作者通过分析不同方法的鲁棒性,得出“NMNs方法较为鲁棒”的结论,进一步做了“推理是和domain无关”的假设。根据这个假设,作者设计了适用于VQA领域的domain adaptation方法,也就是下图中的Two-stage DA。核心思想就是,把Visual Encoder预训练好,再去训练VQA模型(此时保持Visual Encoder不更新)。也就是说:Training Stage 1学习表达,Training Stage 2学习推理,由于“推理和domain无关”,所以得到的模型更加鲁棒。


实验

下图是作者测试了不同VQA数据集之间的domain gap:

下表是不同类方法的domain adaptation性能测试(分别是image shift和question shift情况下):


接下来,作者测试了本文提出的训练策略和已有的domain adaptation方法的对比:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值