这是今年4月份读的一篇论文了,个人认为这篇文章idea非常有趣,可解释性较强,符合VQA方向的发展趋势。
本文从一个新的角度来研究VQA模型的鲁棒性:visual context
• 作者认为VQA模型过度依赖visual context,即图像中不相关的对象来进行预测。提出一种名为 SwapMix 的扰动方法,来诊断模型对visual context的依赖与评估模型的鲁棒性。• 在模型训练阶段,还能使用SwapMix进行 数据增强 。• 在MCAN和LXMERT模型上进行实验。
论文链接:https://arxiv.org/abs/2204.02285
code: https://github.com/vipulgupta1011/swapmix
背景
当前主流的VQA模型主要有两类,一类是基于注意力的模型,最具代表性的就是MCAN,另一类是大规模预训练模型,比如说