视觉问答(VQA)QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning

论文作者:Quanxing Xu,Ling Zhou,Xian Zhong,Feifei Zhang,Rubing Huang,Chia-Wen Lin

作者单位:Macau University of Science and Technology;Wuhan University of Technology;Tianjin University of Technology;National Tsing Hua University

论文链接:http://arxiv.org/abs/2504.03337v1

内容简介:

1)方向:视觉问答(VQA)

2)应用:视觉问答(VQA)

3)背景:现有的VQA去偏方法主要关注增强视觉学习、集成辅助模型或使用数据增强策略。然而,这些方法存在两个主要问题:一是无法捕捉图像和文本之间的深层次关系,二是在推理过程中未能评估输入问题与图像之间的相关性。因此,现有方法未能有效减少预测错误。

4)方法:为了解决上述问题,提出了QIRL框架,采用基于生成的自监督学习策略。具体而言,框架引入了两个模块:负图像生成(NIG)模块,该模块在训练过程中自动生成高度无关的问图对,从而增强相关性学习;以及无关样本识别(ISI)模块,通过检测和过滤无关输入来提高模型鲁棒性,从而减少预测错误。此外,还提出了一种专门的指标来评估ISI模块的性能。

5)结果:在VQA-CPv2和VQA-v2数据集上的广泛实验表明,QIRL方法有效提升了去偏性能,并展示了良好的泛化能力。在数据增强策略中,QIRL取得了最先进的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Qing_er爱吃山竹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值