Robust Visual Question Answering: Datasets, Methods, and Future Challenges
题目:鲁棒性视觉问答:数据集、方法与未来挑战
作者:Jie Ma; Pinghui Wang; Dechen Kong; Zewei Wang; Jun Liu; Hongbin Pei; Junzhou Zhao
摘要
视觉问答(Visual Question Answering, VQA)要求系统能够在给定图像和自然语言问题的情况下提供准确的自然语言答案。然而,先前通用的VQA方法往往倾向于记忆训练数据中存在的偏见,而不是学习适当的行为,例如在预测答案之前对图像进行定位。因此,这些方法通常在分布内(in-distribution)表现良好,但在分布外(out-of-distribution)性能较差。近年来,已经提出了各种数据集和去偏见方法来评估和增强VQA的鲁棒性。本文提供了首个全面关注此新兴领域的综述。具体来说,我们首先从分布内和分布外的角度概述了数据集的发展历程。然后,我们检查了这些数据集采用的评估指标。第三,我