论文作者:Quanxing Xu,Ling Zhou,Xian Zhong,Feifei Zhang,Rubing Huang,Chia-Wen Lin
作者单位:Macau University of Science and Technology;Wuhan University of Technology;Tianjin University of Technology;National Tsing Hua University
论文链接:http://arxiv.org/abs/2504.03337v1
内容简介:
1)方向:视觉问答(VQA)
2)应用:视觉问答(VQA)
3)背景:现有的VQA去偏方法主要关注增强视觉学习、集成辅助模型或使用数据增强策略。然而,这些方法存在两个主要问题:一是无法捕捉图像和文本之间的深层次关系,二是在推理过程中未能评估输入问题与图像之间的相关性。因此,现有方法未能有效减少预测错误。
4)方法:为了解决上述问题,提出了QIRL框架,采用基于生成的自监督学习策略。具体而言,框架引入了两个模块:负图像生成(NIG)模块,该模块在训练过程中自动生成高度无关的问图对,从而增强相关性学习;以及无关样本识别(ISI)模块,通过检测和过滤无关输入来提高模型鲁棒性,从而减少预测错误。此外,还提出了一种专门的指标来评估ISI模块的性能。
5)结果:在VQA-CPv2和VQA-v2数据集上的广泛实验表明,QIRL方法有效提升了去偏性能,并展示了良好的泛化能力。在数据增强策略中,QIRL取得了最先进的结果。