视觉问答（VQA）QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning

Qing_er爱吃山竹

于 2025-04-16 09:31:27 发布

阅读量431

点赞数 13

文章标签： boosting 计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Qing__er/article/details/147266064

版权

论文作者：Quanxing Xu,Ling Zhou,Xian Zhong,Feifei Zhang,Rubing Huang,Chia-Wen Lin

作者单位：Macau University of Science and Technology;Wuhan University of Technology;Tianjin University of Technology;National Tsing Hua University

论文链接：http://arxiv.org/abs/2504.03337v1

内容简介：

1）方向：视觉问答（VQA）

2）应用：视觉问答（VQA）

3）背景：现有的VQA去偏方法主要关注增强视觉学习、集成辅助模型或使用数据增强策略。然而，这些方法存在两个主要问题：一是无法捕捉图像和文本之间的深层次关系，二是在推理过程中未能评估输入问题与图像之间的相关性。因此，现有方法未能有效减少预测错误。

4）方法：为了解决上述问题，提出了QIRL框架，采用基于生成的自监督学习策略。具体而言，框架引入了两个模块：负图像生成（NIG）模块，该模块在训练过程中自动生成高度无关的问图对，从而增强相关性学习；以及无关样本识别（ISI）模块，通过检测和过滤无关输入来提高模型鲁棒性，从而减少预测错误。此外，还提出了一种专门的指标来评估ISI模块的性能。

5）结果：在VQA-CPv2和VQA-v2数据集上的广泛实验表明，QIRL方法有效提升了去偏性能，并展示了良好的泛化能力。在数据增强策略中，QIRL取得了最先进的结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Qing_er爱吃山竹 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。